噪聲環(huán)境下的語音關(guān)鍵詞檢測
發(fā)布時間:2021-04-12 23:33
隨著智能家居、智能手機(jī)和自動化設(shè)備的快速發(fā)展,基于語音技術(shù)的人機(jī)交互變得越來越流行,例如谷歌公司的Google Now,微軟公司的Cortana、亞馬遜公司的Alexa和蘋果公司的Siri已變得十分流行。為了實現(xiàn)免手持的語音識別體驗,語音識別系統(tǒng)需要持續(xù)不斷地監(jiān)聽特定的喚醒詞語來開始語音識別任務(wù),這個過程通常被稱為關(guān)鍵詞檢測(Keyword Detection,KWD)或關(guān)鍵詞識別(Keyword Spotting,KWS)?紤]到目前很多設(shè)備計算資源受限并且大都使用電池作為能量供應(yīng),這要求關(guān)鍵詞檢測必須滿足小內(nèi)存占用和低能量消耗的要求。在現(xiàn)實世界的環(huán)境中,噪聲干擾不可避免,噪聲魯棒性對于關(guān)鍵詞識別任務(wù)而言至關(guān)重要。為了提高關(guān)鍵詞檢測系統(tǒng)的魯棒性,通用的方法是在系統(tǒng)前端增加一個語音增強模型。本文為提高關(guān)鍵詞檢測模型的魯棒性做了三個方面的嘗試。首先,本文將預(yù)訓(xùn)練的語音增強模型和關(guān)鍵詞檢測模型連接起來形成一個更復(fù)雜的系統(tǒng)。整個模型使用聯(lián)合訓(xùn)練的方法,因此關(guān)鍵詞檢測系統(tǒng)包含的語言學(xué)信息可以通過反向傳播的方法傳遞給增強模型。第二,本文提出了一種新的卷積循環(huán)神經(jīng)網(wǎng)絡(luò),這種網(wǎng)絡(luò)結(jié)構(gòu)需要參數(shù)量和計算...
【文章來源】:內(nèi)蒙古大學(xué)內(nèi)蒙古自治區(qū) 211工程院校
【文章頁數(shù)】:54 頁
【學(xué)位級別】:碩士
【部分圖文】:
關(guān)鍵詞檢測系統(tǒng)框架圖
首先對音頻信號進(jìn)行數(shù)模轉(zhuǎn)換,之后對音頻信號進(jìn)行預(yù)加重、分幀、加窗處理。預(yù)加重操作的目的是提高語音中高頻的部分,使得信號在低頻到高頻的整個頻譜變得平坦。語音信號具有短時平穩(wěn)性,即 10-30 ms 內(nèi)可以認(rèn)為語音信號的統(tǒng)計學(xué)性質(zhì)近似不變,因而稱一短段語音信號為一幀,從而語音信號被劃分為多幀信號。分幀時,為了避免丟失信息,采取重疊分段的方法,一幀的時長為幀長,相鄰兩幀的起始位置時間差為幀移。加窗操作是指將語音信號與窗函數(shù)相乘,方便之后做傅里葉變換。本實驗中,幀長為 30 ms,幀移為 10 ms,窗函數(shù)使用漢明窗。經(jīng)過預(yù)處理后,對語音信號作快速傅里葉變換得到頻譜,之后對頻譜取模平方后可以得到信號功率譜。梅爾濾波器組用一組梅爾頻率上線性分布的三角窗濾波器對功率譜進(jìn)行卷積濾波,并求取對數(shù)。最后用離散余弦變換算法對上一步結(jié)果進(jìn)行計算,去除各維信號的相關(guān)性,即可得到梅爾倒譜特征。為了進(jìn)一步提高系統(tǒng)的識別性能,會對 MFCC 特征參數(shù)計算一階差分參數(shù)(Delta)和二階差分參數(shù)(Delta-Delta)。最終可得 13 維 MFCC 特征及其一階二階差分,加上對數(shù)能量特征,共 40 維特征。在本研究中,關(guān)鍵詞檢測系統(tǒng)的特征是 40 維的 MFCC 特征。
圖 2.3 卷積神經(jīng)網(wǎng)絡(luò)Figure 2.3 Convolutional neural network一個簡單的 CNN 結(jié)構(gòu)如圖 2.3 所示,圖中展示了一層卷積層和一層池化層。網(wǎng)絡(luò)的輸入信號為t*f的特征向量,其中t代表時間維度,f代表頻率維度。卷積核大小為m*(rm<=t, r<=f)。s 代表時間軸的長度,v 代表頻率軸的長度。經(jīng)過卷積后得到 n 個特征映射,對這些特征映射進(jìn)行降采樣,池化窗大小為 p*q。根據(jù)不同的任務(wù)判斷是否需要池化,在本文的關(guān)鍵詞檢測模型中沒有進(jìn)行池化操作;诰矸e神經(jīng)網(wǎng)絡(luò)的聲學(xué)模型,最后一層為 softmax 層,其輸出的每一個結(jié)點對應(yīng)一個關(guān)鍵詞標(biāo)簽或者非關(guān)鍵詞的標(biāo)簽,輸出值為某關(guān)鍵詞或非關(guān)鍵詞(未知詞)的后驗概率估計值。在我們的關(guān)鍵詞檢測系統(tǒng)中,CNN 的輸出層有 12 個結(jié)點對應(yīng) 12 種標(biāo)簽,分別對應(yīng) 10種關(guān)鍵詞、“非關(guān)鍵詞”以及靜音。原始的后驗概率估計值帶有噪聲,因而需要對后驗概率估計進(jìn)行平滑,之后計算一個平滑窗內(nèi)的平滑置信度,比較這 12 種標(biāo)簽經(jīng)過平滑處理的置信度打分,最大置信度分?jǐn)?shù)對應(yīng)的標(biāo)簽就是系統(tǒng)預(yù)測的關(guān)鍵詞或“非關(guān)鍵詞”。
本文編號:3134179
【文章來源】:內(nèi)蒙古大學(xué)內(nèi)蒙古自治區(qū) 211工程院校
【文章頁數(shù)】:54 頁
【學(xué)位級別】:碩士
【部分圖文】:
關(guān)鍵詞檢測系統(tǒng)框架圖
首先對音頻信號進(jìn)行數(shù)模轉(zhuǎn)換,之后對音頻信號進(jìn)行預(yù)加重、分幀、加窗處理。預(yù)加重操作的目的是提高語音中高頻的部分,使得信號在低頻到高頻的整個頻譜變得平坦。語音信號具有短時平穩(wěn)性,即 10-30 ms 內(nèi)可以認(rèn)為語音信號的統(tǒng)計學(xué)性質(zhì)近似不變,因而稱一短段語音信號為一幀,從而語音信號被劃分為多幀信號。分幀時,為了避免丟失信息,采取重疊分段的方法,一幀的時長為幀長,相鄰兩幀的起始位置時間差為幀移。加窗操作是指將語音信號與窗函數(shù)相乘,方便之后做傅里葉變換。本實驗中,幀長為 30 ms,幀移為 10 ms,窗函數(shù)使用漢明窗。經(jīng)過預(yù)處理后,對語音信號作快速傅里葉變換得到頻譜,之后對頻譜取模平方后可以得到信號功率譜。梅爾濾波器組用一組梅爾頻率上線性分布的三角窗濾波器對功率譜進(jìn)行卷積濾波,并求取對數(shù)。最后用離散余弦變換算法對上一步結(jié)果進(jìn)行計算,去除各維信號的相關(guān)性,即可得到梅爾倒譜特征。為了進(jìn)一步提高系統(tǒng)的識別性能,會對 MFCC 特征參數(shù)計算一階差分參數(shù)(Delta)和二階差分參數(shù)(Delta-Delta)。最終可得 13 維 MFCC 特征及其一階二階差分,加上對數(shù)能量特征,共 40 維特征。在本研究中,關(guān)鍵詞檢測系統(tǒng)的特征是 40 維的 MFCC 特征。
圖 2.3 卷積神經(jīng)網(wǎng)絡(luò)Figure 2.3 Convolutional neural network一個簡單的 CNN 結(jié)構(gòu)如圖 2.3 所示,圖中展示了一層卷積層和一層池化層。網(wǎng)絡(luò)的輸入信號為t*f的特征向量,其中t代表時間維度,f代表頻率維度。卷積核大小為m*(rm<=t, r<=f)。s 代表時間軸的長度,v 代表頻率軸的長度。經(jīng)過卷積后得到 n 個特征映射,對這些特征映射進(jìn)行降采樣,池化窗大小為 p*q。根據(jù)不同的任務(wù)判斷是否需要池化,在本文的關(guān)鍵詞檢測模型中沒有進(jìn)行池化操作;诰矸e神經(jīng)網(wǎng)絡(luò)的聲學(xué)模型,最后一層為 softmax 層,其輸出的每一個結(jié)點對應(yīng)一個關(guān)鍵詞標(biāo)簽或者非關(guān)鍵詞的標(biāo)簽,輸出值為某關(guān)鍵詞或非關(guān)鍵詞(未知詞)的后驗概率估計值。在我們的關(guān)鍵詞檢測系統(tǒng)中,CNN 的輸出層有 12 個結(jié)點對應(yīng) 12 種標(biāo)簽,分別對應(yīng) 10種關(guān)鍵詞、“非關(guān)鍵詞”以及靜音。原始的后驗概率估計值帶有噪聲,因而需要對后驗概率估計進(jìn)行平滑,之后計算一個平滑窗內(nèi)的平滑置信度,比較這 12 種標(biāo)簽經(jīng)過平滑處理的置信度打分,最大置信度分?jǐn)?shù)對應(yīng)的標(biāo)簽就是系統(tǒng)預(yù)測的關(guān)鍵詞或“非關(guān)鍵詞”。
本文編號:3134179
本文鏈接:http://www.sikaile.net/kejilunwen/xinxigongchenglunwen/3134179.html
最近更新
教材專著