基于LSTM網(wǎng)絡(luò)的聲學(xué)場景在線檢測系統(tǒng)
發(fā)布時間:2020-07-02 03:02
【摘要】:隨著互聯(lián)網(wǎng)的發(fā)展,多媒體技術(shù)的提升以及移動設(shè)備的大量普及,出現(xiàn)了大量的以線上直播為主要業(yè)務(wù)的網(wǎng)絡(luò)平臺。以短視頻分享為主要業(yè)務(wù)的應(yīng)用也日漸流行,目標(biāo)用戶也越來越廣泛。平臺和應(yīng)用上承載的數(shù)據(jù)量之大、種類之龐雜,給用戶搜索想要的數(shù)據(jù)資源帶來了極大不便,同時也給網(wǎng)絡(luò)數(shù)據(jù)的監(jiān)管造成了麻煩。本文針對上述多媒體應(yīng)用中的在線音頻數(shù)據(jù),搭建一套可以識別音頻聲學(xué)場景類別的在線檢測系統(tǒng)。論文的主要內(nèi)容有:(1)基于混合高斯模型(Gaussian Mixed Model,GMM)的聲學(xué)場景識別方法。本文簡要介紹了DCASE2016 Task1聲學(xué)場景識別比賽,以及基于GMM的聲學(xué)場景識別基線系統(tǒng)。該基線系統(tǒng)所使用的特征是梅爾頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,MFCC)。對每個場景類型訓(xùn)練一個GMM模型。分類時,在各GMM模型的輸出中選出最大值,其對應(yīng)的類作為數(shù)據(jù)的預(yù)測類別。(2)基于長短時記憶網(wǎng)絡(luò)(Long Short Term Memory Network,LSTM)的聲學(xué)場景識別方法。其主要目的是利用基于LSTM網(wǎng)絡(luò)的聲學(xué)場景識別模型,對具有鮮明聲學(xué)場景特性的音頻流進行區(qū)分。文中在介紹LSTM網(wǎng)絡(luò)結(jié)構(gòu)特點的基礎(chǔ)上,闡述了與所研究模型相關(guān)的音頻預(yù)處理、特征提取、分段處理、LSTM識別模型的訓(xùn)練和測試等過程,最后給出了該識別模型的測試結(jié)果。該方法使用DCASE2016 Task1聲學(xué)場景識別比賽的數(shù)據(jù)集,最高達到了81.8%的準確率。(3)在線檢測系統(tǒng)設(shè)計與實現(xiàn)。在線音頻數(shù)據(jù)中的聲學(xué)場景類別是開集,離線的訓(xùn)練數(shù)據(jù)無法包含在線數(shù)據(jù)中的所有類別。因此本文提出了一種能夠動態(tài)區(qū)分在線數(shù)據(jù)中是否含有新類別數(shù)據(jù)的系統(tǒng)框架,并且能夠及時地將新類別納入到在線檢測系統(tǒng)進行分析。為此設(shè)計了GMM區(qū)分模型以及基于LSTM的聲學(xué)場景識別模型。最后,系統(tǒng)的測試結(jié)果表明基于LSTM的識別模型可以進行聲學(xué)場景的在線分類,新的聲學(xué)場景類別可以被系統(tǒng)接受并識別。
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:TN912.34
【圖文】:
LSTM 網(wǎng)絡(luò)為了解決 RNN 中出現(xiàn)的梯度消失和梯度爆炸的問題,學(xué)者們提出方案,包括:通過正交初始化避免訓(xùn)練初期階段的梯度消失或爆炸ctified Linear Unit)激活函數(shù)緩解梯度消失現(xiàn)象、梯度剪切解決梯度LSTM 單元控制梯度消失等[1]。其中 LSTM 已經(jīng)成功應(yīng)用于機器翻譯、對話生成等領(lǐng)域,展現(xiàn)出了出色的建模能力。因此本文基于 LSTM 網(wǎng)絡(luò)單元搭建聲學(xué)場景識別可以充分利用其任意長度序列均可作為輸入的特點,將之利用于在別中。LSTM 通過引入單元狀態(tài)(cell state)和三個控制門:輸入門(input g門(output gate)、遺忘門(forget gate)來解決 RNN 不能處理長題[38]。其單元結(jié)構(gòu)如圖 3-2 所示。
第 4 章 在線檢測系統(tǒng)的設(shè)計與實現(xiàn)為了減少在拒識數(shù)據(jù)中發(fā)現(xiàn)新類別的人工干涉,對那些留存的拒識數(shù)據(jù)進行分類時,采用 Canopy 聚類算法[49]預(yù)先對這些數(shù)據(jù)進行聚類,然后可以通過人工核驗的方式確定所聚出的新類別的意義,并進行標(biāo)注。這些新類別數(shù)據(jù)連同可識別數(shù)據(jù)一起形成再訓(xùn)練數(shù)據(jù)集,用于在原有 LSTM 識別模型基礎(chǔ)上進行再訓(xùn)練,得到新的 LSTM 識別模型。同時也使用再訓(xùn)練數(shù)據(jù)集重新訓(xùn)練 GMM區(qū)分模型,使得新類別數(shù)據(jù)在新模型被啟用后也可以被順利接收。綜上所述,系統(tǒng)可以在接收、識別新類別數(shù)據(jù)的能力上,進行動態(tài)的增量提升。聲學(xué)場景在線檢測的增量模型框架大致如圖 4-1 所示。
本文編號:2737646
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:TN912.34
【圖文】:
LSTM 網(wǎng)絡(luò)為了解決 RNN 中出現(xiàn)的梯度消失和梯度爆炸的問題,學(xué)者們提出方案,包括:通過正交初始化避免訓(xùn)練初期階段的梯度消失或爆炸ctified Linear Unit)激活函數(shù)緩解梯度消失現(xiàn)象、梯度剪切解決梯度LSTM 單元控制梯度消失等[1]。其中 LSTM 已經(jīng)成功應(yīng)用于機器翻譯、對話生成等領(lǐng)域,展現(xiàn)出了出色的建模能力。因此本文基于 LSTM 網(wǎng)絡(luò)單元搭建聲學(xué)場景識別可以充分利用其任意長度序列均可作為輸入的特點,將之利用于在別中。LSTM 通過引入單元狀態(tài)(cell state)和三個控制門:輸入門(input g門(output gate)、遺忘門(forget gate)來解決 RNN 不能處理長題[38]。其單元結(jié)構(gòu)如圖 3-2 所示。
第 4 章 在線檢測系統(tǒng)的設(shè)計與實現(xiàn)為了減少在拒識數(shù)據(jù)中發(fā)現(xiàn)新類別的人工干涉,對那些留存的拒識數(shù)據(jù)進行分類時,采用 Canopy 聚類算法[49]預(yù)先對這些數(shù)據(jù)進行聚類,然后可以通過人工核驗的方式確定所聚出的新類別的意義,并進行標(biāo)注。這些新類別數(shù)據(jù)連同可識別數(shù)據(jù)一起形成再訓(xùn)練數(shù)據(jù)集,用于在原有 LSTM 識別模型基礎(chǔ)上進行再訓(xùn)練,得到新的 LSTM 識別模型。同時也使用再訓(xùn)練數(shù)據(jù)集重新訓(xùn)練 GMM區(qū)分模型,使得新類別數(shù)據(jù)在新模型被啟用后也可以被順利接收。綜上所述,系統(tǒng)可以在接收、識別新類別數(shù)據(jù)的能力上,進行動態(tài)的增量提升。聲學(xué)場景在線檢測的增量模型框架大致如圖 4-1 所示。
【參考文獻】
相關(guān)期刊論文 前4條
1 鄭貴濱;韓紀慶;李海峰;鄭鐵然;;基于分段的實時聲頻檢索方法[J];聲學(xué)學(xué)報;2006年02期
2 陳振標(biāo),徐波;基于子帶能量特征的最優(yōu)化語音端點檢測算法研究[J];聲學(xué)學(xué)報;2005年02期
3 韓紀慶;張磊;鄭鐵然;;網(wǎng)絡(luò)環(huán)境下的語音識別方法[J];計算機科學(xué);2005年01期
4 宋博,須德;音頻信息檢索的研究及實現(xiàn)[J];計算機應(yīng)用;2003年12期
相關(guān)會議論文 前1條
1 姜洪臣;梁偉;張樹武;徐波;;音頻場景分類的音頻特征提取和分析[A];第八屆全國人機語音通訊學(xué)術(shù)會議論文集[C];2005年
相關(guān)碩士學(xué)位論文 前2條
1 張強;網(wǎng)絡(luò)音頻數(shù)據(jù)分類標(biāo)注與前處理系統(tǒng)構(gòu)建[D];哈爾濱工業(yè)大學(xué);2012年
2 胡艷芳;廣播音頻的自動分段分類技術(shù)[D];清華大學(xué);2009年
本文編號:2737646
本文鏈接:http://www.sikaile.net/kejilunwen/wltx/2737646.html
最近更新
教材專著