天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

基于語音樣例查詢的關(guān)鍵詞識別方法研究

發(fā)布時間:2017-05-13 04:14

  本文關(guān)鍵詞:基于語音樣例查詢的關(guān)鍵詞識別方法研究,由筆耕文化傳播整理發(fā)布。


【摘要】:基于語音樣例查詢的關(guān)鍵詞識別是關(guān)鍵詞識別的一個重要分支,該類關(guān)鍵詞識別不需要考慮關(guān)鍵詞對應(yīng)的文本信息就能夠從音頻數(shù)據(jù)中快速地搜索并返回與查詢關(guān)鍵詞相關(guān)語音段。因此,該方法主要應(yīng)用于缺乏語音資源和語音學(xué)知識的小語種。近年來,隨著國際化進(jìn)程的不斷加快,針對小語種的語音處理特別是關(guān)鍵詞識別迅速進(jìn)入人們的視野,成為現(xiàn)階段語音處理的一個熱點(diǎn)問題。本論文主要針對該領(lǐng)域的兩個問題進(jìn)行研究:第一,相對于傳統(tǒng)聲學(xué)特征,具有更高可區(qū)分性特征的研究:第二,針對采用隱馬爾可夫模型(Hidden Markov Model,HMM)的關(guān)鍵詞建模識別,研究樣本稀缺情況下關(guān)鍵詞模型的訓(xùn)練方法。近年來,隨著學(xué)習(xí)方法的不斷改進(jìn),深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)在模式識別中得到了諸多成功的應(yīng)用,引起了學(xué)術(shù)界廣泛的關(guān)注。在語音識別中,基于DNN狀態(tài)輸出的DNN-HMM相比高斯混合模型(Gaussian Mixture Model, GMM)-HMM基線系統(tǒng)大大降低了語音識別詞錯誤率。而由具有狹窄中間層,也稱為瓶頸層(BottleNeck, BN)的DNN提取出的BN特征在GMM-HMM基線系統(tǒng)中也取得了接近DNN-HMM模型的語音識別詞錯誤率。本文在相同的關(guān)鍵詞識別框架下比較兩種不同的特征:感知線性預(yù)測(Perceptual Linear Prediction, PLP)和BN特征,找出具有更高區(qū)分性的特征以提高識別系統(tǒng)性能。在基于語音樣例查詢的關(guān)鍵詞識別中,采用統(tǒng)計(jì)建模的方法可以提升模型的穩(wěn)健性。然而,在該類關(guān)鍵詞識別中,關(guān)鍵詞訓(xùn)練樣本的數(shù)量極度缺乏,僅有十到二十個左右甚至更少。在這種情況下,如何更加充分的利用關(guān)鍵詞樣本中的包含的有效信息非常重要。本文在HMM識別框架中,使用最大后驗(yàn)概率(Maximum a Posterior)方法建立關(guān)鍵詞模型,提高了識別系統(tǒng)在資源稀缺情況下的識別性能。另外,還驗(yàn)證了三種模型訓(xùn)練方法在關(guān)鍵詞變化的情況下的有效性。本文提出的算法在標(biāo)準(zhǔn)的TIMIT及藏語數(shù)據(jù)庫上進(jìn)行了實(shí)驗(yàn),從實(shí)驗(yàn)結(jié)果上證明了這些算法的有效性。
【關(guān)鍵詞】:關(guān)鍵詞識別 深度神經(jīng)網(wǎng)絡(luò) BN特征 隱馬爾科夫模型 最大后驗(yàn)概率
【學(xué)位授予單位】:中國科學(xué)技術(shù)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP391.3
【目錄】:
  • 摘要5-6
  • ABSTRACT6-10
  • 第1章 緒論10-18
  • 1.1 研究背景10-11
  • 1.2 研究歷史和現(xiàn)狀11-13
  • 1.3 關(guān)鍵詞識別系統(tǒng)框架13-15
  • 1.4 關(guān)鍵詞識別系統(tǒng)的性能評價(jià)指標(biāo)15-16
  • 1.5 論文的研究內(nèi)容16
  • 1.6 文的結(jié)構(gòu)安排16-18
  • 第2章 基于DTW的關(guān)鍵詞識別方法18-32
  • 2.1 DTW框架介紹18-26
  • 2.1.1 后驗(yàn)概率圖生成19-22
  • 2.1.2 模式匹配算法22-25
  • 2.1.3 得分融合25-26
  • 2.2 特征提取26-30
  • 2.2.1 PLP特征26-29
  • 2.2.2 特征規(guī)整29-30
  • 2.3 實(shí)驗(yàn)配置30-31
  • 2.3.1 數(shù)據(jù)庫30
  • 2.3.2 PLP特征30-31
  • 2.3.3 模型參數(shù)31
  • 2.4 實(shí)驗(yàn)結(jié)果及分析31
  • 2.5 本章小結(jié)31-32
  • 第3章 基于BN特征的關(guān)鍵詞識別方法研究32-48
  • 3.1 BN神經(jīng)網(wǎng)絡(luò)32-41
  • 3.1.1 BN特征訓(xùn)練33-38
  • 3.1.2 BN特征提取38-39
  • 3.1.3 改進(jìn)的BN特征39-41
  • 3.2 基于DTW的識別框架研究41-44
  • 3.2.1 樣本聯(lián)合41-42
  • 3.2.2 距離函數(shù)42-44
  • 3.3 實(shí)驗(yàn)配置44
  • 3.3.1 BN特征44
  • 3.4 實(shí)驗(yàn)結(jié)果及分析44-47
  • 3.4.1 特征對比試驗(yàn)44-45
  • 3.4.2 隱層數(shù)量實(shí)驗(yàn)45
  • 3.4.3 BN層位置實(shí)驗(yàn)45
  • 3.4.4 BN層激活函數(shù)實(shí)驗(yàn)45-46
  • 3.4.5 距離度量實(shí)驗(yàn)46
  • 3.4.6 樣本聯(lián)合與得分融合比較46-47
  • 3.5 本章小結(jié)47-48
  • 第4章 基于HMM模型的特征及方法研究48-60
  • 4.1 HMM簡介48-51
  • 4.1.1 前向算法49-50
  • 4.1.2 Baum-Welsh算法50-51
  • 4.2 模型訓(xùn)練方法51-54
  • 4.2.1 基于ML的模型訓(xùn)練方法51-52
  • 4.2.2 改進(jìn)的ML模型訓(xùn)練方法52
  • 4.2.3 基于MAP的模型訓(xùn)練方法52-54
  • 4.3 音高特征54-55
  • 4.4 實(shí)驗(yàn)配置55-56
  • 4.4.1 數(shù)據(jù)庫55-56
  • 4.4.2 特征提取56
  • 4.4.3 模型參數(shù)56
  • 4.5 實(shí)驗(yàn)結(jié)果及分析56-58
  • 4.5.1 特征對比實(shí)驗(yàn)57
  • 4.5.2 模型生成實(shí)驗(yàn)57-58
  • 4.6 本章小結(jié)58-60
  • 第5章 總結(jié)與展望60-62
  • 5.1 論文總結(jié)60
  • 5.2 研究展望60-62
  • 參考文獻(xiàn)62-68
  • 致謝68-70
  • 攻讀碩士學(xué)位期間發(fā)表的論文70

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 謝貴武;楊繼紅;肖勇;閔剛;;基于語音分段的自適應(yīng)時長調(diào)整算法[J];軍事通信技術(shù);2008年02期

2 樊建中;孫晴;楊永杰;;一種智能盲文學(xué)習(xí)機(jī)設(shè)計(jì)[J];現(xiàn)代電子技術(shù);2010年05期

3 溫洪昌;黃應(yīng)強(qiáng);傅貴興;;單片機(jī)的多段語音組合錄放系統(tǒng)設(shè)計(jì)[J];單片機(jī)與嵌入式系統(tǒng)應(yīng)用;2011年10期

4 張劍;袁華強(qiáng);;Rhetorical-State SVM在抽取式語音摘要中的應(yīng)用[J];科學(xué)技術(shù)與工程;2013年21期

5 盧堅(jiān) ,毛兵 ,孫正興 ,張福炎;一種改進(jìn)的基于說話者的語音分割算法[J];軟件學(xué)報(bào);2002年02期

6 章文義,朱杰;幾種無語音檢測噪音估計(jì)方法的比較研究[J];計(jì)算機(jī)工程與設(shè)計(jì);2003年10期

7 林鑫;陳樺;王開志;王繼成;;語音驅(qū)動唇形自動合成算法[J];計(jì)算機(jī)工程;2007年17期

8 蔡鐵;;基于在線單類支持向量機(jī)的自適應(yīng)語音活動檢測[J];深圳信息職業(yè)技術(shù)學(xué)院學(xué)報(bào);2008年02期

9 章釗;郭武;;話者識別中結(jié)合模型和能量的語音激活檢測算法[J];小型微型計(jì)算機(jī)系統(tǒng);2010年09期

10 朱淑琴,裘雪紅;一種精確檢測語音端點(diǎn)的方法[J];計(jì)算機(jī)仿真;2005年03期

中國重要會議論文全文數(shù)據(jù)庫 前9條

1 田野;王作英;陸大金;;基于韻律結(jié)構(gòu)信息的非語音拒識[A];第六屆全國人機(jī)語音通訊學(xué)術(shù)會議論文集[C];2001年

2 徐明;胡瑞敏;黃云森;;基于音素識別的語音評價(jià)方法[A];第二屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會議(HHME2006)——第15屆中國多媒體學(xué)術(shù)會議(NCMT'06)論文集[C];2006年

3 王歡良;韓紀(jì)慶;李海峰;王承發(fā);;面向嵌入式應(yīng)用的小詞匯量語音串識別系統(tǒng)[A];第七屆全國人機(jī)語音通訊學(xué)術(shù)會議(NCMMSC7)論文集[C];2003年

4 那斯?fàn)柦ね聽栠d;吾守爾·斯拉木;麥麥提艾力;;維吾爾語大詞匯量連續(xù)語音識別研究——語音語料庫的建立[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學(xué)術(shù)研討會論文集[C];2007年

5 簡志華;王向文;;考慮幀間信息的語音轉(zhuǎn)換算法[A];浙江省信號處理學(xué)會2012學(xué)術(shù)年會論文集[C];2012年

6 魏維;馬海燕;;一種丟失語音信包重建的新算法[A];通信理論與信號處理新進(jìn)展——2005年通信理論與信號處理年會論文集[C];2005年

7 陳凡;羅四維;;一個實(shí)用語音開發(fā)應(yīng)用系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];第二屆全國人機(jī)語音通訊學(xué)術(shù)會議論文集[C];1992年

8 劉紅星;戴蓓劏;陸偉;;基于圖像增強(qiáng)方法的共振峰諧波能量參數(shù)的語音和端點(diǎn)檢測[A];第九屆全國人機(jī)語音通訊學(xué)術(shù)會議論文集[C];2007年

9 林愛華;張文俊;王毅敏;;基于肌肉模型的語音驅(qū)動唇形動畫[A];第十三屆全國圖象圖形學(xué)學(xué)術(shù)會議論文集[C];2006年

中國重要報(bào)紙全文數(shù)據(jù)庫 前5條

1 atvoc;數(shù)碼語音電路產(chǎn)品概述[N];電子資訊時報(bào);2008年

2 記者 李山;德用雙音素改進(jìn)人工語音表達(dá)[N];科技日報(bào);2012年

3 中國科學(xué)院自動化研究所模式識別國家重點(diǎn)實(shí)驗(yàn)室 于劍邋陶建華;個性化語音生成技術(shù)面面觀[N];計(jì)算機(jī)世界;2007年

4 江西 林慧勇;語音合成芯片MSM6295及其應(yīng)用[N];電子報(bào);2006年

5 ;與“小超人”對話[N];中國計(jì)算機(jī)報(bào);2001年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 高偉勛;智能家居環(huán)境中個性化語音生成關(guān)鍵技術(shù)研究[D];東華大學(xué);2015年

2 陳麗萍;說話人確認(rèn)中語音段差異建模相關(guān)問題的研究[D];中國科學(xué)技術(shù)大學(xué);2016年

3 陶冶;文本語音匹配的研究和應(yīng)用[D];山東大學(xué);2009年

4 何俊;聲紋身份識別中非常態(tài)語音應(yīng)對方法研究[D];華南理工大學(xué);2012年

5 李冬冬;基于拓展和聚類的情感魯棒說話人識別研究[D];浙江大學(xué);2008年

6 雙志偉;個性化語音生成研究[D];中國科學(xué)技術(shù)大學(xué);2011年

7 古今;語音感知認(rèn)證的關(guān)鍵技術(shù)研究[D];中國科學(xué)技術(shù)大學(xué);2009年

8 彭波;Internet上語音的魯棒性傳輸研究[D];華南理工大學(xué);2001年

9 黃湘松;基于混淆網(wǎng)絡(luò)的漢語語音檢索技術(shù)研究[D];哈爾濱工程大學(xué);2010年

10 應(yīng)娜;基于正弦語音模型的低比特率寬帶語音編碼算法的研究[D];吉林大學(xué);2006年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 王明明;基于GMM和碼本映射相結(jié)合的語音轉(zhuǎn)換方法研究[D];西安建筑科技大學(xué);2015年

2 印雪晨;宋詞朗讀呼吸信號和韻律時長研究[D];西北民族大學(xué);2015年

3 邱一良;噪聲環(huán)境下的語音檢測方法研究[D];電子科技大學(xué);2015年

4 朱俊梅;基于性別預(yù)分類的年齡自動估計(jì)研究[D];江蘇師范大學(xué);2014年

5 張占松;基于DSP的語音干擾方法研究與實(shí)現(xiàn)[D];北京交通大學(xué);2016年

6 李鵬;基于系統(tǒng)融合的語音查詢項(xiàng)檢索技術(shù)研究[D];解放軍信息工程大學(xué);2015年

7 趙蓉蓉;基于計(jì)算聽覺場景分析的單通道語音盲分離技術(shù)[D];太原理工大學(xué);2016年

8 崔瑞蓮;語種識別中的語音段表示方法研究[D];中國科學(xué)技術(shù)大學(xué);2016年

9 劉學(xué);基于語音樣例查詢的關(guān)鍵詞識別方法研究[D];中國科學(xué)技術(shù)大學(xué);2016年

10 周慧;基于PAD三維情緒模型的情感語音轉(zhuǎn)換與識別[D];西北師范大學(xué);2009年


  本文關(guān)鍵詞:基于語音樣例查詢的關(guān)鍵詞識別方法研究,,由筆耕文化傳播整理發(fā)布。



本文編號:361561

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/361561.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶408b5***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com