語種識別中的語音段表示方法研究
本文關(guān)鍵詞:語種識別中的語音段表示方法研究
更多相關(guān)文章: 語種識別 語音段表示 深度神經(jīng)網(wǎng)絡(luò) 音素狀態(tài)后驗(yàn) 深度瓶頸特征
【摘要】:語種識別(Language Identification, LID)是對一段語音自動識別出其所屬語言的種類的過程。由此可知,語種識別是一種針對語音段進(jìn)行的模式識別,因此語種識別中的一個關(guān)鍵問題即是如何得到用以描述語音段的表示。語種識別中包含了特征提取和語音識別前端模型等一系列語音信號處理領(lǐng)域的核心技術(shù),具有一定的科學(xué)研究價值。同時作為語音領(lǐng)域的一種前端處理技術(shù),語種識別在多語種語音識別、跨語種通信系統(tǒng)以及軍事監(jiān)聽等領(lǐng)域有著廣泛的應(yīng)用。傳統(tǒng)的語種識別方法主要有基于音素搭配與基于底層聲學(xué)特征的兩大系統(tǒng)。傳統(tǒng)方法中雖然長時測試性能取得了很大的進(jìn)展,但仍存在著短時與方言識別率低等問題。隨著深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network, DNN)的發(fā)展與成功應(yīng)用,語種識別有了一個新的研究領(lǐng)域。在前端特征提取上,提出基于深度瓶頸特征結(jié)合全差異空間模型(Deep Bottleneck Feature-Total Variability, DBF-TV)該方法將深度神經(jīng)網(wǎng)絡(luò)中間瓶頸隱層的信息成功運(yùn)用到語種識別中。在后端建模方法上,則根據(jù)DNN區(qū)分性建模的能力充分利用其輸出層信息,如DNN/i-Vector方法,即利用DNN輸出層音素狀態(tài)后驗(yàn)重新估計通用背景模型(Universal Background Model, UBM)。然而對于一個以底層聲學(xué)特征為輸入、音素狀態(tài)后驗(yàn)為輸出訓(xùn)練得到的深度神經(jīng)網(wǎng)絡(luò),我們認(rèn)為該網(wǎng)絡(luò)從輸入層至輸出層依次反映了語音從底層聲學(xué)特征到高層語義與音素相關(guān)的較為完備的信息,而且各層信息之間具有互補(bǔ)性。因此本文就基于同一DNN不同層信息如何得到語音段的表示展開研究,具體而言即是同時利用同一神經(jīng)網(wǎng)絡(luò)的中間瓶頸層和輸出層信息。首先,對于從深度神經(jīng)網(wǎng)絡(luò)輸出層提取的音素狀態(tài)幀級特征,可以認(rèn)為其是在各幀上展開的音素狀態(tài)序列,則每段語音可以通過計算其統(tǒng)計量作為語音段表示。得到的語音段表示是向量形式的,則可直接用區(qū)分性模型對其進(jìn)行分類。具體則根據(jù)其特性,使用合適的核函數(shù)進(jìn)行了支持向量機(jī)分類。并根據(jù)神經(jīng)網(wǎng)絡(luò)不同層信息的互補(bǔ)性,將該方法與DBF-TV進(jìn)行融合,能夠提升語種識別系統(tǒng)的性能。其次,在帶有中間瓶頸層的深度神經(jīng)網(wǎng)絡(luò)上實(shí)現(xiàn)基于DBF的DNN/i-Vector基線系統(tǒng),同時完成中間層DBF特征的提取與以輸出層音素狀態(tài)為依據(jù)的聚類,即在模型域?qū)烧哌M(jìn)行融合。具體地,利用DNN輸出層的音素狀態(tài)為聚類的依據(jù),以其后驗(yàn)概率代替每幀特征在傳統(tǒng)UBM模型中各高斯上的占有率,再結(jié)合DBF得到帶有與音素狀態(tài)相關(guān)的UBM。以此為基線,對DNN/i-Vector系統(tǒng)的輸入特征DBF進(jìn)行Acoustic Factor Analysis(AFA)建模,使其得到的模型能夠更好地描述特征空間,以此進(jìn)一步提升系統(tǒng)的識別性能。最后,從深度神經(jīng)網(wǎng)絡(luò)輸出層提取的特征是一種幀級特征,類似DBF特征亦可以利用統(tǒng)計建模的方法對其在幀級特征空間上的分布特性進(jìn)行描述以得到湃音段表示。然而此類特征一般都屬于高維特征,需要在低維空間上對其分析。我們采用混合因子分析(Mixtures of Factor Analyzers, MFA)對特征進(jìn)行低維空間上的建模方法研究,該方法是降維與聚類的結(jié)合,等同于對特征進(jìn)行聚類后,再在每個聚類內(nèi)做因子分析將其映射到低維空間上。相對將輸出層信息的統(tǒng)計量作為語音段表示的單系統(tǒng),該方法的性能有一定的提升,特別是在短時測試集的識別性能上。
【關(guān)鍵詞】:語種識別 語音段表示 深度神經(jīng)網(wǎng)絡(luò) 音素狀態(tài)后驗(yàn) 深度瓶頸特征
【學(xué)位授予單位】:中國科學(xué)技術(shù)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TN912.34
【目錄】:
- 摘要5-7
- ABSTRACT7-13
- 第一章 緒論13-21
- 1.1 語種識別簡介13-17
- 1.1.1 語種識別背景介紹13-15
- 1.1.2 語種識別研究概況15-17
- 1.2 數(shù)據(jù)集及性能評價指標(biāo)17-18
- 1.2.1 數(shù)據(jù)集17-18
- 1.2.2 性能評價指標(biāo)18
- 1.3 論文的主要內(nèi)容及組織結(jié)構(gòu)18-21
- 第二章 語種識別中語音段表示方法概述21-33
- 2.1 基于音素搭配的語種識別方法21-23
- 2.1.1 基于PR-LM的語種識別22-23
- 2.1.2 基于PR-SVM的語種識別23
- 2.2 基于底層聲學(xué)特征的語種識別方法23-28
- 2.2.1 基于GMM-UBM的語種識別24-25
- 2.2.2 基于GSV-SVM的語種識別25-26
- 2.2.3 基于因子分析的語種識別26-28
- 2.3 基于網(wǎng)絡(luò)的語種識別方法28-32
- 2.3.1 基于PLLR特征的語種識別28-29
- 2.3.2 基于DBF-TV的語種識別29-31
- 2.3.3 DNN/i-Vector語種識別系統(tǒng)31-32
- 2.4 本章小結(jié)32-33
- 第三章 基于DNN不同層信息的語音段表示33-41
- 3.1 基于DNN的幀級特征提取33-34
- 3.2 基于音素狀態(tài)與DBF的語種識別系統(tǒng)34-36
- 3.3 實(shí)驗(yàn)36-38
- 3.4 本章小結(jié)38-41
- 第四章 基于DNN的i-Vector語音段表示41-53
- 4.1 基于DBF的DNN/i-Vector基線系統(tǒng)41-43
- 4.2 模型輸入特征43-45
- 4.3 基于AFA建模的i-Vector語音段表示45-49
- 4.3.1 基于AFA建模的語種識別系統(tǒng)45-46
- 4.3.2 基于AFA建模的i-Vector46-49
- 4.4 實(shí)驗(yàn)49-51
- 4.5 本章小結(jié)51-53
- 第五章 低維空間上的語音段表示53-61
- 5.1 基于DNN輸出層的幀級特征53-54
- 5.2 基于MFA建模的語音段表示54-57
- 5.2.1 混合因子分析54-56
- 5.2.2 基于MFA的超矢量語音段表示56-57
- 5.3 實(shí)驗(yàn)57-59
- 5.4 本章小結(jié)59-61
- 第六章 總結(jié)與展望61-65
- 6.1 論文工作總結(jié)61-63
- 6.2 后續(xù)工作展望63-65
- 參考文獻(xiàn)65-69
- 致謝69-71
- 在讀期間發(fā)表的學(xué)術(shù)論文與取得的研究成果71
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 謝貴武;楊繼紅;肖勇;閔剛;;基于語音分段的自適應(yīng)時長調(diào)整算法[J];軍事通信技術(shù);2008年02期
2 樊建中;孫晴;楊永杰;;一種智能盲文學(xué)習(xí)機(jī)設(shè)計[J];現(xiàn)代電子技術(shù);2010年05期
3 溫洪昌;黃應(yīng)強(qiáng);傅貴興;;單片機(jī)的多段語音組合錄放系統(tǒng)設(shè)計[J];單片機(jī)與嵌入式系統(tǒng)應(yīng)用;2011年10期
4 張劍;袁華強(qiáng);;Rhetorical-State SVM在抽取式語音摘要中的應(yīng)用[J];科學(xué)技術(shù)與工程;2013年21期
5 盧堅 ,毛兵 ,孫正興 ,張福炎;一種改進(jìn)的基于說話者的語音分割算法[J];軟件學(xué)報;2002年02期
6 章文義,朱杰;幾種無語音檢測噪音估計方法的比較研究[J];計算機(jī)工程與設(shè)計;2003年10期
7 林鑫;陳樺;王開志;王繼成;;語音驅(qū)動唇形自動合成算法[J];計算機(jī)工程;2007年17期
8 蔡鐵;;基于在線單類支持向量機(jī)的自適應(yīng)語音活動檢測[J];深圳信息職業(yè)技術(shù)學(xué)院學(xué)報;2008年02期
9 章釗;郭武;;話者識別中結(jié)合模型和能量的語音激活檢測算法[J];小型微型計算機(jī)系統(tǒng);2010年09期
10 朱淑琴,裘雪紅;一種精確檢測語音端點(diǎn)的方法[J];計算機(jī)仿真;2005年03期
中國重要會議論文全文數(shù)據(jù)庫 前9條
1 田野;王作英;陸大金;;基于韻律結(jié)構(gòu)信息的非語音拒識[A];第六屆全國人機(jī)語音通訊學(xué)術(shù)會議論文集[C];2001年
2 徐明;胡瑞敏;黃云森;;基于音素識別的語音評價方法[A];第二屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會議(HHME2006)——第15屆中國多媒體學(xué)術(shù)會議(NCMT'06)論文集[C];2006年
3 王歡良;韓紀(jì)慶;李海峰;王承發(fā);;面向嵌入式應(yīng)用的小詞匯量語音串識別系統(tǒng)[A];第七屆全國人機(jī)語音通訊學(xué)術(shù)會議(NCMMSC7)論文集[C];2003年
4 那斯?fàn)柦ね聽栠d;吾守爾·斯拉木;麥麥提艾力;;維吾爾語大詞匯量連續(xù)語音識別研究——語音語料庫的建立[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學(xué)術(shù)研討會論文集[C];2007年
5 簡志華;王向文;;考慮幀間信息的語音轉(zhuǎn)換算法[A];浙江省信號處理學(xué)會2012學(xué)術(shù)年會論文集[C];2012年
6 魏維;馬海燕;;一種丟失語音信包重建的新算法[A];通信理論與信號處理新進(jìn)展——2005年通信理論與信號處理年會論文集[C];2005年
7 陳凡;羅四維;;一個實(shí)用語音開發(fā)應(yīng)用系統(tǒng)的設(shè)計與實(shí)現(xiàn)[A];第二屆全國人機(jī)語音通訊學(xué)術(shù)會議論文集[C];1992年
8 劉紅星;戴蓓劏;陸偉;;基于圖像增強(qiáng)方法的共振峰諧波能量參數(shù)的語音和端點(diǎn)檢測[A];第九屆全國人機(jī)語音通訊學(xué)術(shù)會議論文集[C];2007年
9 林愛華;張文俊;王毅敏;;基于肌肉模型的語音驅(qū)動唇形動畫[A];第十三屆全國圖象圖形學(xué)學(xué)術(shù)會議論文集[C];2006年
中國重要報紙全文數(shù)據(jù)庫 前5條
1 atvoc;數(shù)碼語音電路產(chǎn)品概述[N];電子資訊時報;2008年
2 記者 李山;德用雙音素改進(jìn)人工語音表達(dá)[N];科技日報;2012年
3 中國科學(xué)院自動化研究所模式識別國家重點(diǎn)實(shí)驗(yàn)室 于劍邋陶建華;個性化語音生成技術(shù)面面觀[N];計算機(jī)世界;2007年
4 江西 林慧勇;語音合成芯片MSM6295及其應(yīng)用[N];電子報;2006年
5 ;與“小超人”對話[N];中國計算機(jī)報;2001年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 高偉勛;智能家居環(huán)境中個性化語音生成關(guān)鍵技術(shù)研究[D];東華大學(xué);2015年
2 陳麗萍;說話人確認(rèn)中語音段差異建模相關(guān)問題的研究[D];中國科學(xué)技術(shù)大學(xué);2016年
3 陶冶;文本語音匹配的研究和應(yīng)用[D];山東大學(xué);2009年
4 何俊;聲紋身份識別中非常態(tài)語音應(yīng)對方法研究[D];華南理工大學(xué);2012年
5 李冬冬;基于拓展和聚類的情感魯棒說話人識別研究[D];浙江大學(xué);2008年
6 雙志偉;個性化語音生成研究[D];中國科學(xué)技術(shù)大學(xué);2011年
7 古今;語音感知認(rèn)證的關(guān)鍵技術(shù)研究[D];中國科學(xué)技術(shù)大學(xué);2009年
8 彭波;Internet上語音的魯棒性傳輸研究[D];華南理工大學(xué);2001年
9 黃湘松;基于混淆網(wǎng)絡(luò)的漢語語音檢索技術(shù)研究[D];哈爾濱工程大學(xué);2010年
10 應(yīng)娜;基于正弦語音模型的低比特率寬帶語音編碼算法的研究[D];吉林大學(xué);2006年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 王明明;基于GMM和碼本映射相結(jié)合的語音轉(zhuǎn)換方法研究[D];西安建筑科技大學(xué);2015年
2 印雪晨;宋詞朗讀呼吸信號和韻律時長研究[D];西北民族大學(xué);2015年
3 邱一良;噪聲環(huán)境下的語音檢測方法研究[D];電子科技大學(xué);2015年
4 朱俊梅;基于性別預(yù)分類的年齡自動估計研究[D];江蘇師范大學(xué);2014年
5 張占松;基于DSP的語音干擾方法研究與實(shí)現(xiàn)[D];北京交通大學(xué);2016年
6 李鵬;基于系統(tǒng)融合的語音查詢項(xiàng)檢索技術(shù)研究[D];解放軍信息工程大學(xué);2015年
7 趙蓉蓉;基于計算聽覺場景分析的單通道語音盲分離技術(shù)[D];太原理工大學(xué);2016年
8 崔瑞蓮;語種識別中的語音段表示方法研究[D];中國科學(xué)技術(shù)大學(xué);2016年
9 劉學(xué);基于語音樣例查詢的關(guān)鍵詞識別方法研究[D];中國科學(xué)技術(shù)大學(xué);2016年
10 周慧;基于PAD三維情緒模型的情感語音轉(zhuǎn)換與識別[D];西北師范大學(xué);2009年
,本文編號:898823
本文鏈接:http://www.sikaile.net/kejilunwen/xinxigongchenglunwen/898823.html