卷積神經(jīng)網(wǎng)絡(luò)在大詞匯量連續(xù)語音識別中的運(yùn)用研究
發(fā)布時間:2020-06-17 13:48
【摘要】:語音識別技術(shù)經(jīng)過多年發(fā)展已取得了長足的進(jìn)步,在孤立詞識別方面已經(jīng)取得了很大的成功,在識別率上已經(jīng)達(dá)到了接近完全正確的高度,但是在大詞匯量連續(xù)語音識別(LVCSR)方面仍有較大提高的空間。近年來,深度學(xué)習(xí)在大詞匯量連續(xù)語音識別領(lǐng)域的運(yùn)用受到廣泛的重視。本文研究了卷積神經(jīng)網(wǎng)絡(luò)(CNN)在大詞匯量連續(xù)語音識別中的運(yùn)用,選題具有重要的理論與實(shí)際意義。論文首先描述了語音識別技術(shù)的研究背景和現(xiàn)狀,論述了語音識別與人工神經(jīng)網(wǎng)絡(luò)的相關(guān)知識,包括語音識別的基本原理、語音識別系統(tǒng)的構(gòu)成、以及人工神經(jīng)網(wǎng)絡(luò)的BP算法和卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練算法。其次,描述了大詞匯量連續(xù)語音識別中存在的難點(diǎn),分析了卷積神經(jīng)網(wǎng)絡(luò)在LVCSR中的優(yōu)勢,搭建了本文大詞匯量連續(xù)語音識別系統(tǒng);并重點(diǎn)闡述了LVCSR中的CNN網(wǎng)絡(luò)結(jié)構(gòu),分析了網(wǎng)絡(luò)各層的特點(diǎn),說明了各層參數(shù)的設(shè)計(jì)方法。最后,選用中文語音庫TIMIT和英文語音庫thchs30,對卷積神經(jīng)網(wǎng)絡(luò)在LVCSR中的運(yùn)用進(jìn)行了實(shí)驗(yàn)測試。對FBANK語音特征和廣泛使用的MFCC語音特征進(jìn)行了比較,FBANK語音特征在CNN模型中有著更低的詞錯誤率。通過對卷積層卷積核大小和池化層池化面積大小的調(diào)優(yōu),實(shí)現(xiàn)對卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化,獲得了詞錯誤率相對較低的網(wǎng)絡(luò)模型。英文數(shù)據(jù)庫TIMIT優(yōu)化后的詞錯誤率為19.1%,相比于GMM-HMM方法的單音素模型的詞錯誤率32.7%和三音素模型的詞錯誤率25.6%,CNN模型提高了識別正確率;中文語音庫thchs30優(yōu)化后的詞錯誤率為27.34%,相比于GMM-HMM方法的單音素模型的50.88%和三音素模型的35.97%,CNN模型也提高了識別正確率。實(shí)驗(yàn)中還通過在線識別的方法,展示了優(yōu)化后的CNN在LVCSR中的識別結(jié)果和性能提升。研究表明,卷積神經(jīng)網(wǎng)絡(luò)在LVCSR中能夠減少語音識別的詞錯誤率,但仍然有很多的研究工作要做,如結(jié)合大數(shù)據(jù)的學(xué)習(xí)更好提升語音識別的性能等。
【學(xué)位授予單位】:華中科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:TN912.34;TP183
【圖文】:
圖 2-6 語音幀序列轉(zhuǎn)化成音素狀態(tài)序列過程在圖 2-6 中,O表示長度為 m 的觀測序列{O1,O2,...,Oi,...,Om},O1,O2,O3,O4音素狀態(tài)是 sil,O5,O6,O7音素狀態(tài)是 y,而下方的馬爾可夫鏈就表示狀態(tài)轉(zhuǎn)移過程[20],sil 音素狀態(tài)變成 y 音素狀態(tài)就是 0.4,不變的概率是 0.6,y 音素狀態(tài)變成 eh 音素狀態(tài)就是 0.7,不變的概率是 0.3,以此類推。最終從觀測序列得到的整個語音狀態(tài)序列概率為bsil(O1)*0.6 *bsil(O2)*0.6 *bsil(O3)*0.6 *bsil(O4)*0.4 *by(O5)*0.3*by(O6)...。在 GMM-HMM 聲學(xué)模型中,GMM 的訓(xùn)練模型基于的是 EM 算法,HMM 的訓(xùn)練模型基于的是前向后向算法(Baum Welch 算法),GMM-HMM 的出現(xiàn)使語音識別技術(shù)的準(zhǔn)確率大大提升,讓人們在大數(shù)據(jù)集下訓(xùn)練連續(xù)語音有了突破性的進(jìn)展,從而促使很多實(shí)用性的語音識別產(chǎn)品產(chǎn)生。2.2.4 語言模型和字典聲學(xué)模型處理過后的語音數(shù)據(jù)會得到每一幀信號的音素狀態(tài),從音素序列再變
中 科 技 大 學(xué) 碩 士 學(xué) 位 論 P ( s )來表示詞序列出現(xiàn)的概率。 計(jì)算公式如下式1 2 1 2 1 3 1 2 1 ) ( ... ) ( ) ( | ) ( | )... ( | ..T T s P w w w P w P w w P w w w P w w 2-11)中,詞序列s 由 T 個詞組成, s = w1w2...wT,利分布函數(shù)轉(zhuǎn)化成條件概率。典(lexicon)存儲著音素(phoneme)和單詞(words們可以將聲學(xué)模型與語言模型聯(lián)系起來,從而為解碼器參照表。7 中,中文語音數(shù)據(jù)的字典記錄的是中文漢字字符與相
本文編號:2717694
【學(xué)位授予單位】:華中科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:TN912.34;TP183
【圖文】:
圖 2-6 語音幀序列轉(zhuǎn)化成音素狀態(tài)序列過程在圖 2-6 中,O表示長度為 m 的觀測序列{O1,O2,...,Oi,...,Om},O1,O2,O3,O4音素狀態(tài)是 sil,O5,O6,O7音素狀態(tài)是 y,而下方的馬爾可夫鏈就表示狀態(tài)轉(zhuǎn)移過程[20],sil 音素狀態(tài)變成 y 音素狀態(tài)就是 0.4,不變的概率是 0.6,y 音素狀態(tài)變成 eh 音素狀態(tài)就是 0.7,不變的概率是 0.3,以此類推。最終從觀測序列得到的整個語音狀態(tài)序列概率為bsil(O1)*0.6 *bsil(O2)*0.6 *bsil(O3)*0.6 *bsil(O4)*0.4 *by(O5)*0.3*by(O6)...。在 GMM-HMM 聲學(xué)模型中,GMM 的訓(xùn)練模型基于的是 EM 算法,HMM 的訓(xùn)練模型基于的是前向后向算法(Baum Welch 算法),GMM-HMM 的出現(xiàn)使語音識別技術(shù)的準(zhǔn)確率大大提升,讓人們在大數(shù)據(jù)集下訓(xùn)練連續(xù)語音有了突破性的進(jìn)展,從而促使很多實(shí)用性的語音識別產(chǎn)品產(chǎn)生。2.2.4 語言模型和字典聲學(xué)模型處理過后的語音數(shù)據(jù)會得到每一幀信號的音素狀態(tài),從音素序列再變
中 科 技 大 學(xué) 碩 士 學(xué) 位 論 P ( s )來表示詞序列出現(xiàn)的概率。 計(jì)算公式如下式1 2 1 2 1 3 1 2 1 ) ( ... ) ( ) ( | ) ( | )... ( | ..T T s P w w w P w P w w P w w w P w w 2-11)中,詞序列s 由 T 個詞組成, s = w1w2...wT,利分布函數(shù)轉(zhuǎn)化成條件概率。典(lexicon)存儲著音素(phoneme)和單詞(words們可以將聲學(xué)模型與語言模型聯(lián)系起來,從而為解碼器參照表。7 中,中文語音數(shù)據(jù)的字典記錄的是中文漢字字符與相
【參考文獻(xiàn)】
相關(guān)期刊論文 前1條
1 何湘智;語音識別的研究與發(fā)展[J];計(jì)算機(jī)與現(xiàn)代化;2002年03期
本文編號:2717694
本文鏈接:http://www.sikaile.net/kejilunwen/wltx/2717694.html
最近更新
教材專著