基于語音樣例查詢的關(guān)鍵詞識別方法研究
本文關(guān)鍵詞:基于語音樣例查詢的關(guān)鍵詞識別方法研究,由筆耕文化傳播整理發(fā)布。
【摘要】:基于語音樣例查詢的關(guān)鍵詞識別是關(guān)鍵詞識別的一個重要分支,該類關(guān)鍵詞識別不需要考慮關(guān)鍵詞對應(yīng)的文本信息就能夠從音頻數(shù)據(jù)中快速地搜索并返回與查詢關(guān)鍵詞相關(guān)語音段。因此,該方法主要應(yīng)用于缺乏語音資源和語音學(xué)知識的小語種。近年來,隨著國際化進(jìn)程的不斷加快,針對小語種的語音處理特別是關(guān)鍵詞識別迅速進(jìn)入人們的視野,成為現(xiàn)階段語音處理的一個熱點(diǎn)問題。本論文主要針對該領(lǐng)域的兩個問題進(jìn)行研究:第一,相對于傳統(tǒng)聲學(xué)特征,具有更高可區(qū)分性特征的研究:第二,針對采用隱馬爾可夫模型(Hidden Markov Model,HMM)的關(guān)鍵詞建模識別,研究樣本稀缺情況下關(guān)鍵詞模型的訓(xùn)練方法。近年來,隨著學(xué)習(xí)方法的不斷改進(jìn),深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)在模式識別中得到了諸多成功的應(yīng)用,引起了學(xué)術(shù)界廣泛的關(guān)注。在語音識別中,基于DNN狀態(tài)輸出的DNN-HMM相比高斯混合模型(Gaussian Mixture Model, GMM)-HMM基線系統(tǒng)大大降低了語音識別詞錯誤率。而由具有狹窄中間層,也稱為瓶頸層(BottleNeck, BN)的DNN提取出的BN特征在GMM-HMM基線系統(tǒng)中也取得了接近DNN-HMM模型的語音識別詞錯誤率。本文在相同的關(guān)鍵詞識別框架下比較兩種不同的特征:感知線性預(yù)測(Perceptual Linear Prediction, PLP)和BN特征,找出具有更高區(qū)分性的特征以提高識別系統(tǒng)性能。在基于語音樣例查詢的關(guān)鍵詞識別中,采用統(tǒng)計(jì)建模的方法可以提升模型的穩(wěn)健性。然而,在該類關(guān)鍵詞識別中,關(guān)鍵詞訓(xùn)練樣本的數(shù)量極度缺乏,僅有十到二十個左右甚至更少。在這種情況下,如何更加充分的利用關(guān)鍵詞樣本中的包含的有效信息非常重要。本文在HMM識別框架中,使用最大后驗(yàn)概率(Maximum a Posterior)方法建立關(guān)鍵詞模型,提高了識別系統(tǒng)在資源稀缺情況下的識別性能。另外,還驗(yàn)證了三種模型訓(xùn)練方法在關(guān)鍵詞變化的情況下的有效性。本文提出的算法在標(biāo)準(zhǔn)的TIMIT及藏語數(shù)據(jù)庫上進(jìn)行了實(shí)驗(yàn),從實(shí)驗(yàn)結(jié)果上證明了這些算法的有效性。
【關(guān)鍵詞】:關(guān)鍵詞識別 深度神經(jīng)網(wǎng)絡(luò) BN特征 隱馬爾科夫模型 最大后驗(yàn)概率
【學(xué)位授予單位】:中國科學(xué)技術(shù)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP391.3
【目錄】:
- 摘要5-6
- ABSTRACT6-10
- 第1章 緒論10-18
- 1.1 研究背景10-11
- 1.2 研究歷史和現(xiàn)狀11-13
- 1.3 關(guān)鍵詞識別系統(tǒng)框架13-15
- 1.4 關(guān)鍵詞識別系統(tǒng)的性能評價(jià)指標(biāo)15-16
- 1.5 論文的研究內(nèi)容16
- 1.6 文的結(jié)構(gòu)安排16-18
- 第2章 基于DTW的關(guān)鍵詞識別方法18-32
- 2.1 DTW框架介紹18-26
- 2.1.1 后驗(yàn)概率圖生成19-22
- 2.1.2 模式匹配算法22-25
- 2.1.3 得分融合25-26
- 2.2 特征提取26-30
- 2.2.1 PLP特征26-29
- 2.2.2 特征規(guī)整29-30
- 2.3 實(shí)驗(yàn)配置30-31
- 2.3.1 數(shù)據(jù)庫30
- 2.3.2 PLP特征30-31
- 2.3.3 模型參數(shù)31
- 2.4 實(shí)驗(yàn)結(jié)果及分析31
- 2.5 本章小結(jié)31-32
- 第3章 基于BN特征的關(guān)鍵詞識別方法研究32-48
- 3.1 BN神經(jīng)網(wǎng)絡(luò)32-41
- 3.1.1 BN特征訓(xùn)練33-38
- 3.1.2 BN特征提取38-39
- 3.1.3 改進(jìn)的BN特征39-41
- 3.2 基于DTW的識別框架研究41-44
- 3.2.1 樣本聯(lián)合41-42
- 3.2.2 距離函數(shù)42-44
- 3.3 實(shí)驗(yàn)配置44
- 3.3.1 BN特征44
- 3.4 實(shí)驗(yàn)結(jié)果及分析44-47
- 3.4.1 特征對比試驗(yàn)44-45
- 3.4.2 隱層數(shù)量實(shí)驗(yàn)45
- 3.4.3 BN層位置實(shí)驗(yàn)45
- 3.4.4 BN層激活函數(shù)實(shí)驗(yàn)45-46
- 3.4.5 距離度量實(shí)驗(yàn)46
- 3.4.6 樣本聯(lián)合與得分融合比較46-47
- 3.5 本章小結(jié)47-48
- 第4章 基于HMM模型的特征及方法研究48-60
- 4.1 HMM簡介48-51
- 4.1.1 前向算法49-50
- 4.1.2 Baum-Welsh算法50-51
- 4.2 模型訓(xùn)練方法51-54
- 4.2.1 基于ML的模型訓(xùn)練方法51-52
- 4.2.2 改進(jìn)的ML模型訓(xùn)練方法52
- 4.2.3 基于MAP的模型訓(xùn)練方法52-54
- 4.3 音高特征54-55
- 4.4 實(shí)驗(yàn)配置55-56
- 4.4.1 數(shù)據(jù)庫55-56
- 4.4.2 特征提取56
- 4.4.3 模型參數(shù)56
- 4.5 實(shí)驗(yàn)結(jié)果及分析56-58
- 4.5.1 特征對比實(shí)驗(yàn)57
- 4.5.2 模型生成實(shí)驗(yàn)57-58
- 4.6 本章小結(jié)58-60
- 第5章 總結(jié)與展望60-62
- 5.1 論文總結(jié)60
- 5.2 研究展望60-62
- 參考文獻(xiàn)62-68
- 致謝68-70
- 攻讀碩士學(xué)位期間發(fā)表的論文70
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 謝貴武;楊繼紅;肖勇;閔剛;;基于語音分段的自適應(yīng)時長調(diào)整算法[J];軍事通信技術(shù);2008年02期
2 樊建中;孫晴;楊永杰;;一種智能盲文學(xué)習(xí)機(jī)設(shè)計(jì)[J];現(xiàn)代電子技術(shù);2010年05期
3 溫洪昌;黃應(yīng)強(qiáng);傅貴興;;單片機(jī)的多段語音組合錄放系統(tǒng)設(shè)計(jì)[J];單片機(jī)與嵌入式系統(tǒng)應(yīng)用;2011年10期
4 張劍;袁華強(qiáng);;Rhetorical-State SVM在抽取式語音摘要中的應(yīng)用[J];科學(xué)技術(shù)與工程;2013年21期
5 盧堅(jiān) ,毛兵 ,孫正興 ,張福炎;一種改進(jìn)的基于說話者的語音分割算法[J];軟件學(xué)報(bào);2002年02期
6 章文義,朱杰;幾種無語音檢測噪音估計(jì)方法的比較研究[J];計(jì)算機(jī)工程與設(shè)計(jì);2003年10期
7 林鑫;陳樺;王開志;王繼成;;語音驅(qū)動唇形自動合成算法[J];計(jì)算機(jī)工程;2007年17期
8 蔡鐵;;基于在線單類支持向量機(jī)的自適應(yīng)語音活動檢測[J];深圳信息職業(yè)技術(shù)學(xué)院學(xué)報(bào);2008年02期
9 章釗;郭武;;話者識別中結(jié)合模型和能量的語音激活檢測算法[J];小型微型計(jì)算機(jī)系統(tǒng);2010年09期
10 朱淑琴,裘雪紅;一種精確檢測語音端點(diǎn)的方法[J];計(jì)算機(jī)仿真;2005年03期
中國重要會議論文全文數(shù)據(jù)庫 前9條
1 田野;王作英;陸大金;;基于韻律結(jié)構(gòu)信息的非語音拒識[A];第六屆全國人機(jī)語音通訊學(xué)術(shù)會議論文集[C];2001年
2 徐明;胡瑞敏;黃云森;;基于音素識別的語音評價(jià)方法[A];第二屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會議(HHME2006)——第15屆中國多媒體學(xué)術(shù)會議(NCMT'06)論文集[C];2006年
3 王歡良;韓紀(jì)慶;李海峰;王承發(fā);;面向嵌入式應(yīng)用的小詞匯量語音串識別系統(tǒng)[A];第七屆全國人機(jī)語音通訊學(xué)術(shù)會議(NCMMSC7)論文集[C];2003年
4 那斯?fàn)柦ね聽栠d;吾守爾·斯拉木;麥麥提艾力;;維吾爾語大詞匯量連續(xù)語音識別研究——語音語料庫的建立[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學(xué)術(shù)研討會論文集[C];2007年
5 簡志華;王向文;;考慮幀間信息的語音轉(zhuǎn)換算法[A];浙江省信號處理學(xué)會2012學(xué)術(shù)年會論文集[C];2012年
6 魏維;馬海燕;;一種丟失語音信包重建的新算法[A];通信理論與信號處理新進(jìn)展——2005年通信理論與信號處理年會論文集[C];2005年
7 陳凡;羅四維;;一個實(shí)用語音開發(fā)應(yīng)用系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];第二屆全國人機(jī)語音通訊學(xué)術(shù)會議論文集[C];1992年
8 劉紅星;戴蓓劏;陸偉;;基于圖像增強(qiáng)方法的共振峰諧波能量參數(shù)的語音和端點(diǎn)檢測[A];第九屆全國人機(jī)語音通訊學(xué)術(shù)會議論文集[C];2007年
9 林愛華;張文俊;王毅敏;;基于肌肉模型的語音驅(qū)動唇形動畫[A];第十三屆全國圖象圖形學(xué)學(xué)術(shù)會議論文集[C];2006年
中國重要報(bào)紙全文數(shù)據(jù)庫 前5條
1 atvoc;數(shù)碼語音電路產(chǎn)品概述[N];電子資訊時報(bào);2008年
2 記者 李山;德用雙音素改進(jìn)人工語音表達(dá)[N];科技日報(bào);2012年
3 中國科學(xué)院自動化研究所模式識別國家重點(diǎn)實(shí)驗(yàn)室 于劍邋陶建華;個性化語音生成技術(shù)面面觀[N];計(jì)算機(jī)世界;2007年
4 江西 林慧勇;語音合成芯片MSM6295及其應(yīng)用[N];電子報(bào);2006年
5 ;與“小超人”對話[N];中國計(jì)算機(jī)報(bào);2001年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 高偉勛;智能家居環(huán)境中個性化語音生成關(guān)鍵技術(shù)研究[D];東華大學(xué);2015年
2 陳麗萍;說話人確認(rèn)中語音段差異建模相關(guān)問題的研究[D];中國科學(xué)技術(shù)大學(xué);2016年
3 陶冶;文本語音匹配的研究和應(yīng)用[D];山東大學(xué);2009年
4 何俊;聲紋身份識別中非常態(tài)語音應(yīng)對方法研究[D];華南理工大學(xué);2012年
5 李冬冬;基于拓展和聚類的情感魯棒說話人識別研究[D];浙江大學(xué);2008年
6 雙志偉;個性化語音生成研究[D];中國科學(xué)技術(shù)大學(xué);2011年
7 古今;語音感知認(rèn)證的關(guān)鍵技術(shù)研究[D];中國科學(xué)技術(shù)大學(xué);2009年
8 彭波;Internet上語音的魯棒性傳輸研究[D];華南理工大學(xué);2001年
9 黃湘松;基于混淆網(wǎng)絡(luò)的漢語語音檢索技術(shù)研究[D];哈爾濱工程大學(xué);2010年
10 應(yīng)娜;基于正弦語音模型的低比特率寬帶語音編碼算法的研究[D];吉林大學(xué);2006年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 王明明;基于GMM和碼本映射相結(jié)合的語音轉(zhuǎn)換方法研究[D];西安建筑科技大學(xué);2015年
2 印雪晨;宋詞朗讀呼吸信號和韻律時長研究[D];西北民族大學(xué);2015年
3 邱一良;噪聲環(huán)境下的語音檢測方法研究[D];電子科技大學(xué);2015年
4 朱俊梅;基于性別預(yù)分類的年齡自動估計(jì)研究[D];江蘇師范大學(xué);2014年
5 張占松;基于DSP的語音干擾方法研究與實(shí)現(xiàn)[D];北京交通大學(xué);2016年
6 李鵬;基于系統(tǒng)融合的語音查詢項(xiàng)檢索技術(shù)研究[D];解放軍信息工程大學(xué);2015年
7 趙蓉蓉;基于計(jì)算聽覺場景分析的單通道語音盲分離技術(shù)[D];太原理工大學(xué);2016年
8 崔瑞蓮;語種識別中的語音段表示方法研究[D];中國科學(xué)技術(shù)大學(xué);2016年
9 劉學(xué);基于語音樣例查詢的關(guān)鍵詞識別方法研究[D];中國科學(xué)技術(shù)大學(xué);2016年
10 周慧;基于PAD三維情緒模型的情感語音轉(zhuǎn)換與識別[D];西北師范大學(xué);2009年
本文關(guān)鍵詞:基于語音樣例查詢的關(guān)鍵詞識別方法研究,,由筆耕文化傳播整理發(fā)布。
本文編號:361561
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/361561.html