深度神經(jīng)網(wǎng)絡技術在漢語語音識別聲學建模中的優(yōu)化策略
本文選題:深層神經(jīng)網(wǎng)絡 + 語音識別; 參考:《重慶郵電大學學報(自然科學版)》2014年03期
【摘要】:將深度神經(jīng)網(wǎng)絡作為聲學模型引入面向漢語電話自然口語交談語音識別系統(tǒng)。針對自然口語中識別字錯誤率較高的問題,從語音的聲學特征類型選擇、模型訓練時元參數(shù)調(diào)節(jié)以及改善模型泛化能力等方面出發(fā),對基于深度神經(jīng)網(wǎng)絡的聲學模型建模技術進行了一系列的優(yōu)化。針對訓練樣本中狀態(tài)先驗概率分布稀疏的情況,提出了一種狀態(tài)先驗概率平滑算法,在一定程度上緩解了這種數(shù)據(jù)稀疏問題,經(jīng)平滑后,字錯誤率下降超過1%。在所采用的3個電話自然口語交談測試集上,相對于優(yōu)化前的深度神經(jīng)網(wǎng)絡模型,經(jīng)過優(yōu)化后的模型取得了性能的一致提升,字錯誤率平均相對降低15%。實驗結果表明,所采用優(yōu)化策略可以有效地改善深度神經(jīng)網(wǎng)絡聲學模型性能。
[Abstract]:The depth neural network is used as the acoustic model in the speech recognition system for natural spoken conversation of Chinese telephone. Aiming at the problem of high recognition error rate in natural spoken language, this paper starts with the selection of acoustic feature types of speech, the adjustment of model training time element parameters, and the improvement of model generalization ability, etc. The acoustic modeling technology based on depth neural network is optimized. A state priori probability smoothing algorithm is proposed for sparse state prior probability distribution in training samples. To some extent, the problem of data sparsity is alleviated. After smoothing, the word error rate decreases by more than 1 bit. Compared with the depth neural network model before the optimization, the performance of the optimized model is consistently improved, and the word error rate is reduced by 15%. Experimental results show that the proposed optimization strategy can effectively improve the performance of depth neural network acoustic model.
【作者單位】: 中國科學院語言聲學與內(nèi)容理解重點實驗室;
【基金】:國家自然科學基金(10925419,90920302,61072124,11074275,11161140319,91120001,61271426) 中國科學院戰(zhàn)略性先導科技專項(XDA06030100,XDA06030500) 國家“863”計劃(2012AA012503) 中科院重點部署項目(KGZD-EW-103-2)~~
【分類號】:TN912.34;TP183
【參考文獻】
相關期刊論文 前1條
1 杜利民;侯自強;;自動語音識別研究的人工神經(jīng)網(wǎng)絡方法[J];物理學進展;1996年Z1期
【共引文獻】
相關期刊論文 前1條
1 賈穎,杜利民,侯自強;一類目標函數(shù)的逆向構造[J];電子科學學刊;2000年02期
相關碩士學位論文 前3條
1 胡小平;支持向量機在說話人識別中的應用[D];南京理工大學;2003年
2 鄭燕琳;漢語連續(xù)語音三字詞基音提取及聲調(diào)識別[D];吉林大學;2004年
3 張杰;基于WEKA平臺和多分類器的少數(shù)民族語種識別研究[D];云南大學;2013年
【相似文獻】
相關期刊論文 前10條
1 曾黃麟;;一類新的模式識別聯(lián)想神經(jīng)網(wǎng)絡[J];電訊技術;1992年01期
2 陳在;;神經(jīng)網(wǎng)絡:一種全新的多媒體技術[J];重慶郵電學院學報(自然科學版);1993年01期
3 王衛(wèi),蔡德鈞,,萬發(fā)貫;神經(jīng)網(wǎng)絡在圖像編碼中的應用[J];電子學報;1995年07期
4 何振亞;計算智能信息處理[J];數(shù)據(jù)采集與處理;1996年02期
5 王磊;莫玉龍;;基于自反饋連續(xù)Hopfield網(wǎng)絡復原運動模糊圖象的研究[J];電子器件;1997年01期
6 王廷堯;神經(jīng)計算技術在ATM光纖高速智能管理網(wǎng)中的應用(續(xù))[J];光通信技術;2000年03期
7 李會方;李鋒W
本文編號:1866240
本文鏈接:http://www.sikaile.net/kejilunwen/wltx/1866240.html