當(dāng)前位置：主頁 > 科技論文 > 網(wǎng)絡(luò)通信論文 >

基于深層神經(jīng)網(wǎng)絡(luò)的聲學(xué)特征提取及其在LVCSR系統(tǒng)中的應(yīng)用

發(fā)布時間：2018-05-08 14:33

本文選題：深層神經(jīng)網(wǎng)絡(luò) + 大詞匯量連續(xù)語音識別　；參考：《中國科學(xué)技術(shù)大學(xué)》2014年博士論文

【摘要】：近年來,深層神經(jīng)網(wǎng)絡(luò)(Deep Neural Network, DNN)的崛起在諸多研究領(lǐng)域都引起了強烈的反響,并越來越受到關(guān)注。在語音識別領(lǐng)域,DNN相關(guān)技術(shù)能夠使聲學(xué)模型的識別性能得到顯著性提升,已然成為新的研究熱點。DNN通常以兩種方式被有效地應(yīng)用到聲學(xué)建模當(dāng)中：1)與隱馬爾科夫模型(Hidden Markov Model, HMM)組成混合架構(gòu)模型DNN-HMM,代替高斯混合模型(Gaussian Mixture Model, GMM)進(jìn)行狀態(tài)輸出概率的計算；2)作為前端的聲學(xué)特征提取器,為傳統(tǒng)的GMM-HMM聲學(xué)建模架構(gòu)提供更有效的聲學(xué)特征。本文將主要圍繞基于DNN的聲學(xué)特征提取及其在LVCSR系統(tǒng)中的應(yīng)用展開研究,包括Tandem特征(或叫作概率特征)提取和瓶頸(bottleneck)特征提取兩方面。首先,本文針對中文LVCSR系統(tǒng)提出了一種構(gòu)建音素建模單元集的方法。這里,音素建模單元集的構(gòu)建包括將傳統(tǒng)聲韻母建模單元集中的韻母細(xì)化到拼音音素級別、以一些先驗知識為指導(dǎo)對這些單元進(jìn)行調(diào)整并構(gòu)造相對應(yīng)的詞典,以及首次基于擴(kuò)展元音三角圖設(shè)計問題集。音素建模單元集的單元數(shù)目相對較少,顯得更為精簡,冗余度和重合性降低,音素單元之間的區(qū)分性增強,在提取Tandem特征時可以有效的減少神經(jīng)網(wǎng)絡(luò)的輸出層節(jié)點數(shù)目,這樣既可以降低神經(jīng)網(wǎng)絡(luò)的復(fù)雜度,也更有利于Tandem特征的提取。實驗表明,相比于聲韻母建模單元集,新的音素建模單元集在基線系統(tǒng)和Tandem特征提取兩方面都取得了較優(yōu)的識別性能。其次,本文搭建了基于DNN提取bottleneck特征的基線系統(tǒng),并結(jié)合一些啟發(fā)式的技術(shù)進(jìn)行了相應(yīng)的優(yōu)化。為了提取bottleneck特征,我們通常是將DNN中間隱層的節(jié)點數(shù)設(shè)置成一個較小的數(shù)值(往往與基礎(chǔ)MFCC或PLP特征維度一致),這個隱層就被形象地稱作為bottleneck層,而這種具有特殊結(jié)構(gòu)的DNN被稱作為bottleneck DNN, bottleneck層的輸出就是所期望得到的基線bottleneck特征。實驗表明,通過引入一些啟發(fā)式的技術(shù),比如利用線性變換技術(shù)PCA去相關(guān)、一階差分和二階差分系數(shù)、在解碼過程中使用聲學(xué)規(guī)整因子重新調(diào)整聲學(xué)模型得分和語言模型得分之間的相對重要性等,bottleneck特征取得了較為顯著的性能提升,甚至能與DNN-HMM混合架構(gòu)模型的性能相比擬。其中,引入聲學(xué)規(guī)整因子尤為重要。第三,本文提出了兩種DNN非相干訓(xùn)練(Incoherent Training)算法,即最小化bottleneck層權(quán)重矩陣的相干性和最小化每個1nini-batch中數(shù)據(jù)的相關(guān)系數(shù)。算法通過在DNN訓(xùn)練的原始目標(biāo)函數(shù)上增添歸整項,使得bottleneck特征各維之間的相關(guān)性能夠在DNN的訓(xùn)練過程中較為顯式地被直接控制并被自動去除,以便于更好地用于后續(xù)對角化GMM-HMM的建模。實驗結(jié)果表明,兩種非相干訓(xùn)練算法都取得了一定的效果,使得基于bottleneck特征的GMM-HMM模型在識別性能上超越了DNN-HMM. 最后,本文引入序貫區(qū)分性訓(xùn)練(Sequential Discriminative Training,SDT)算法對bottleneck DNN進(jìn)行優(yōu)化,從而得到性能更好的bottleneck特征。SDT算法在GMM-HMM建模架構(gòu)中已經(jīng)取得了卓越的效果,其目標(biāo)函數(shù)中包含的語音幀之間的序貫信息對于語音識別問題至關(guān)重要,而這恰恰是傳統(tǒng)的DNN訓(xùn)練算法(主要是基于幀分類的交叉熵算法)所缺少的,因此,我們借助SDT算法來對DNN參數(shù)進(jìn)一步優(yōu)化,并且采用了兩種新的bottleneckDNN結(jié)構(gòu)。兩種結(jié)構(gòu)都是將bottleneck層后移至最后一個隱層,但是,第一種結(jié)構(gòu)的其他隱層節(jié)點數(shù)目相同,另一種則采取“寬”、“窄”隱層交織的結(jié)構(gòu)。從實驗結(jié)果中可以看到,SDT算法有助于得到更好的bottleneck特征,并且在后移結(jié)構(gòu)上能夠取得更優(yōu)的性能,而使用交織結(jié)構(gòu)能夠減少提取bottleneck特征的計算量,同時保證識別性能基本沒有損失。
[Abstract]:In recent years , the rise of Deep Neural Network ( DNN ) has caused a strong echo in many fields , and more and more attention has been paid . In the field of speech recognition , DNN technology can improve the recognition performance of the acoustic model , which has become a new research hotspot . The DNN is usually applied to acoustic modeling in two ways : 1 ) and Hidden Markov Model ( HMM ) .
2 ) As the acoustic feature extractor at the front end , it provides more effective acoustic characteristics for the traditional acoustic modeling architecture of the gmm - HMM . This paper mainly focuses on the feature extraction based on DNN and its application in LVCSR system , including the extraction of tandem feature ( or probability feature ) extraction and bottleneck feature extraction .

Firstly , this paper proposes a method of constructing a phoneme modeling unit set for Chinese LVCSR system . The construction of the phoneme modeling unit includes thinning the vowel in the traditional vowel modeling unit to the phoneme level , adjusting and constructing the corresponding dictionary based on some prior knowledge , and reducing the number of output layer nodes of the neural network for the first time .

Secondly , this paper sets up a baseline system based on DNN extraction feature , and optimizes it with some heuristic techniques . In order to extract the characteristic , we usually set the number of nodes of the middle hidden layer of DNN to a smaller value ( which is often consistent with the basic MFCC or PLPs feature dimension ) , and this hidden layer is referred to as the base layer , and the output of this special structure is called as the base line characteristic . The experiment shows that by introducing some heuristic techniques , such as using linear transformation technique PCA to re - adjust the relative importance between the acoustic model score and the language model score , this feature has achieved remarkable performance improvement , and even can be compared with the performance of the DNN - HMM hybrid architecture model .

Thirdly , two kinds of DNN non - coherent training ( Incoherent Training ) algorithms are proposed to minimize the coherence of the weight matrix and minimize the correlation coefficient of data in every 1nini - batch .

In the end , this paper introduces sequential discriminative training ( sdt ) algorithm to optimize the speech recognition problem , so as to get better performance . The algorithm is very important to the speech recognition problem in the model of gmm - HMM , and the two new structures are the structure of the traditional DNN training algorithm ( mainly based on the cross entropy algorithm of frame classification ) .

【學(xué)位授予單位】：中國科學(xué)技術(shù)大學(xué)
【學(xué)位級別】：博士
【學(xué)位授予年份】：2014
【分類號】：TN912.3;TP18

【共引文獻(xiàn)】

相關(guān)期刊論文前10條

1 趙俊鈺;魏建明;潘強;劉海濤;;無線傳感器網(wǎng)絡(luò)中一種新型加權(quán)Mel濾波器組[J];傳感技術(shù)學(xué)報;2009年06期

2 寧永成;侯代文;;遞推的貝葉斯估計方法[J];四川兵工學(xué)報;2013年10期

3 郭宇弘;黎塔;肖業(yè)鳴;潘接林;顏永紅;;基于加權(quán)有限狀態(tài)機(jī)的動態(tài)匹配詞圖生成算法[J];電子與信息學(xué)報;2014年01期

4 陳晨;胡貝貝;;基于語音識別技術(shù)的機(jī)載短波應(yīng)急通信[J];電訊技術(shù);2014年01期

5 趙曉;侯晴宇;梁冰冰;張偉;;基于多屬性融合的高分辨率遙感圖像云檢測方法[J];光學(xué)技術(shù);2014年02期

6 肖業(yè)鳴;張晴晴;宋黎明;潘接林;顏永紅;;深度神經(jīng)網(wǎng)絡(luò)技術(shù)在漢語語音識別聲學(xué)建模中的優(yōu)化策略[J];重慶郵電大學(xué)學(xué)報(自然科學(xué)版);2014年03期

7 俸云;景新幸;葉懋;;MFCC特征改進(jìn)算法在語音識別中的應(yīng)用[J];計算機(jī)工程與科學(xué);2009年12期

8 俸云;景新幸;;結(jié)合殘差相位的MFCC特征改進(jìn)算法[J];計算機(jī)仿真;2009年10期

9 司華建;李輝;陳冠華;方昕;;最大后驗概率自適應(yīng)方法在口令識別中的應(yīng)用[J];計算機(jī)工程與應(yīng)用;2013年12期

10 何勇軍;付茂國;孫廣路;;語音特征增強方法綜述[J];哈爾濱理工大學(xué)學(xué)報;2014年02期

相關(guān)會議論文前3條

1 袁冬梅;俞一彪;顏祥;戴志強;;非線性頻譜變換的說話人識別性能分析[A];2006’和諧開發(fā)中國西部聲學(xué)學(xué)術(shù)交流會論文集[C];2006年

2 王海燕;楊鴻武;甘振業(yè);裴東;;基于說話人自適應(yīng)訓(xùn)練的漢藏雙語語音合成[A];第十二屆全國人機(jī)語音通訊學(xué)術(shù)會議（NCMMSC'2013）論文集[C];2013年

3 李先剛;張晨煒;龐在虎;吳璽宏;;大詞匯量連續(xù)語音識別解碼器優(yōu)化研究與實現(xiàn)[A];第十二屆全國人機(jī)語音通訊學(xué)術(shù)會議（NCMMSC'2013）論文集[C];2013年

相關(guān)博士學(xué)位論文前9條

1 陳剛;基于內(nèi)容的相關(guān)反饋式音樂檢索方法研究[D];華中科技大學(xué);2010年

2 陳凌輝;說話人轉(zhuǎn)換建模方法研究[D];中國科學(xué)技術(shù)大學(xué);2013年

3 飛龍;蒙古語語音關(guān)鍵詞檢測技術(shù)的研究[D];內(nèi)蒙古大學(xué);2013年

4 張茹;漢語普通話發(fā)音自動評測方法的研究[D];哈爾濱工業(yè)大學(xué);2013年

5 葉飛;高階隱馬氏模型算法理論若干問題的研究[D];上海大學(xué);2012年

6 王琳琳;說話人識別中的時變魯棒性問題研究[D];清華大學(xué);2013年

7 陳洪濤;基于多參量信息融合的刀具磨損狀態(tài)識別及預(yù)測技術(shù)研究[D];西南交通大學(xué);2013年

8 黃垂碧;應(yīng)用層網(wǎng)關(guān)攻擊檢測和性能優(yōu)化策略研究[D];中國科學(xué)技術(shù)大學(xué);2014年

9 王智國;嵌入式人機(jī)語音交互系統(tǒng)關(guān)鍵技術(shù)研究[D];中國科學(xué)技術(shù)大學(xué);2014年

相關(guān)碩士學(xué)位論文前10條

1 葉振超;CADAL中國文學(xué)編年史系統(tǒng)的設(shè)計與實現(xiàn)[D];浙江大學(xué);2011年

2 劉巍;基于內(nèi)容的同源音頻和視頻檢索[D];北京郵電大學(xué);2011年

3 朝木日樂格;基于支持向量機(jī)的蒙古語語音端點檢測方法研究[D];內(nèi)蒙古大學(xué);2011年

4 李Y，

本文編號：1861781

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://www.sikaile.net/kejilunwen/wltx/1861781.html

上一篇：正弦調(diào)頻傅里葉變換方法及雷達(dá)目標(biāo)微動特性反演技術(shù)研究
下一篇：基于頻域Katz分形維數(shù)的快速盲頻譜感知

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深層神經(jīng)網(wǎng)絡(luò)的聲學(xué)特征提取及其在LVCSR系統(tǒng)中的應(yīng)用