基于模糊神經(jīng)網(wǎng)絡(luò)的說話人識別方法研究

發(fā)布時間：2020-03-22 11:20

【摘要】：說話人識別技術(shù)是一項(xiàng)通過提取可以表征說話人生理特性的語音參數(shù)對說話人身份進(jìn)行認(rèn)證的技術(shù)。近年來,由于研究者們對人工智能技術(shù)的不斷深入研究,說話人識別技術(shù)也因此得到了快速的發(fā)展。語音工作者已經(jīng)把工作重心從研究基于高斯混合模型的說話人識別方法逐漸轉(zhuǎn)移到研究基于深度神經(jīng)網(wǎng)絡(luò)的說話人識別方法中。其中模糊神經(jīng)網(wǎng)絡(luò)對說話人語音信號具有較強(qiáng)的模型分類能力,而卷積神經(jīng)網(wǎng)絡(luò)對數(shù)據(jù)又具很好的表征能力,基于此,本文通過提出一種改進(jìn)的說話人識別方法,對說話人識別效果進(jìn)行研究。本文的主要內(nèi)容如下:(1)針對模糊神經(jīng)網(wǎng)絡(luò)存在的難以對數(shù)據(jù)特征進(jìn)行深度提取的問題,本文通過將卷積神經(jīng)網(wǎng)絡(luò)的卷積層和池化層與模糊神經(jīng)網(wǎng)絡(luò)進(jìn)行有效地結(jié)合,提出基于改進(jìn)模糊神經(jīng)網(wǎng)絡(luò)的說話人識別方法。該方法首先通過利用卷積層對數(shù)據(jù)特征進(jìn)行深度提取,然后通過池化層對提取的特征進(jìn)行降維,最后將池化層輸出的數(shù)據(jù)模糊化后,模糊推理系統(tǒng)會根據(jù)被模糊化后的輸入信號的隸屬度值,計(jì)算出當(dāng)前規(guī)則的適用度,并完成數(shù)據(jù)去模糊化后,輸出層將輸出說話人識別結(jié)果。(2)針對當(dāng)前Dropout算法存在因隨機(jī)丟棄神經(jīng)元而可能造成關(guān)鍵信息丟失的問題,本文對Dropout算法進(jìn)行了改進(jìn)。在當(dāng)前Dropout算法中引入對神經(jīng)元輸出值閾值判斷、分類的機(jī)制,并通過自定義函數(shù)降低激活程度較高的神經(jīng)元被丟棄的可能性。實(shí)驗(yàn)結(jié)果表明,改進(jìn)的Dropout算法能夠有效地提升說話人識別系統(tǒng)的識別性能和泛化能力。
【圖文】：

頻譜,說話人,原始語音,頻譜

完成預(yù)處理的語音信號具有更多的高頻分量，更少的噪聲以及更為均勻的頻率分布。（1）預(yù)加重受聲門激勵和生理結(jié)構(gòu)的影響，語音信號的平均功率譜中頻率大于 800Hz 的部分會按 6dB 倍頻程衰減。為了增加高頻成分，我們通常采用數(shù)字濾波器對語音信號預(yù)加重，從而保持語音信號頻譜的均勻性與平滑性[37]。平滑、均勻的語音信號可以用相同的信噪比計(jì)算出它的頻譜，為下一步的頻譜分析做準(zhǔn)備。本次課題中的說話人識別系統(tǒng)采用的是一階數(shù)字濾波器： 11 H z z （2-1）其中為預(yù)加重系數(shù)，通常在范圍 0.9< <1 內(nèi)取值，在本次試驗(yàn)中取值為0.97。圖 2-2 中，（a）為在說話人語音樣本庫中隨機(jī)選取的一個說話人的語音信號圖，（b）為對應(yīng)的頻譜圖。

頻譜,語音信號,頻譜,分幀

（a）（b）圖 2-3 濾波器響應(yīng)與部分語音信號濾波后的頻譜圖 2-3 中，（a）為濾波器的幅頻響應(yīng)與相位響應(yīng)。取出第 200 到 455 點(diǎn)的語音信號觀察其特性，即（b）圖為部分語音信號的頻譜及其濾波后的頻譜。（2）分幀連續(xù)長時語音信號具有時變特性，然而對于時長在 10ms 到 30ms 范圍內(nèi)的語音信號，它的頻譜特征變化小，狀態(tài)穩(wěn)定，具有短時平穩(wěn)性。在說話人識別領(lǐng)域，建立說話人識別系統(tǒng)都以短時語音分析技術(shù)[38, 39]為基礎(chǔ)。長時語音信號分割為多個長度相等的語音片段的過程稱為分幀，，其中每一語音片段稱作一幀。幀的長度通常在[10,30]毫秒范圍內(nèi)取值。經(jīng)過分幀，能表征說話人聲音特性的語音幀就可以代替整段長時語音信號。（3）加窗為了使每一幀的兩端能夠平滑過渡，一般對語音幀加窗處理。主瓣和旁瓣的寬度是決定窗函數(shù)性能的主要因素。矩形窗函數(shù)主瓣集中、頻率識別精度高但是
【學(xué)位授予單位】：南昌航空大學(xué)
【學(xué)位級別】：碩士
【學(xué)位授予年份】：2019
【分類號】：TN912.34;TP183

【相似文獻(xiàn)】

相關(guān)期刊論文前10條

1 劉倩;李時;;細(xì)菌趨藥性算法在說話人識別中的應(yīng)用[J];宿州學(xué)院學(xué)報;2017年11期

2 趙艷;呂亮;趙力;;基于修正Fukunaga-Koontz變換的說話人識別方法[J];電子器件;2018年04期

3 李為州;楊印根;;說話人識別中基于深度信念網(wǎng)絡(luò)的超向量降維的研究[J];電腦知識與技術(shù);2017年22期

4 雷震春;萬艷紅;羅劍;朱明華;;基于Mahalanobis距離的說話人識別模型研究[J];中國語音學(xué)報;2016年00期

5 王華朋;李寧;許鋒;蔡能斌;;基于元音共振峰特征的法庭說話人識別[J];中國刑警學(xué)院學(xué)報;2014年02期

6 王華朋;楊軍;許勇;;應(yīng)用似然比框架的法庭說話人識別[J];數(shù)據(jù)采集與處理;2013年02期

7 檀蕊蓮;劉建平;;說話人識別技術(shù)的研究進(jìn)展[J];科技資訊;2007年33期

8 寧飛,陳頻;說話人識別的幾種方法[J];電聲技術(shù);2001年12期

9 曹業(yè)敏,侯風(fēng)雷,王炳錫;說話人識別技術(shù)現(xiàn)狀與進(jìn)展[J];河南科技;1998年09期

10 王華朋;楊軍;吳鳴;許勇;;基于自適應(yīng)同源方差控制的法庭自動說話人識別[J];應(yīng)用科學(xué)學(xué)報;2014年06期

相關(guān)會議論文前10條

1 孫帆;遲惠生;;循環(huán)網(wǎng)絡(luò)說話人識別[A];第二屆全國人機(jī)語音通訊學(xué)術(shù)會議（NCMMSC1992）論文集[C];1992年

2 肖劍;歐貴文;;多層前饋神經(jīng)網(wǎng)絡(luò)組的文本無關(guān)說話人識別[A];第七屆全國人機(jī)語音通訊學(xué)術(shù)會議（NCMMSC7）論文集[C];2003年

3 吳璽宏;劉文舉;;聽神經(jīng)計(jì)算模型及其在抗噪說話人識別中的應(yīng)用[A];第六屆全國人機(jī)語音通訊學(xué)術(shù)會議論文集[C];2001年

4 任舒彬;楊瑩春;吳朝暉;;面向多通道說話人識別的預(yù)處理方法實(shí)驗(yàn)研究(類別:聲紋鑒定)[A];第六屆全國現(xiàn)代語音學(xué)學(xué)術(shù)會議論文集（下）[C];2003年

5 劉大力;趙力;;與文本無關(guān)說話人識別系統(tǒng)的性能比較[A];2004年全國物理聲學(xué)會議論文集[C];2004年

6 張陳昊;鄭方;王琳琳;;基于多音素類模型的文本無關(guān)短語音說話人識別[A];需將論文集名稱修改為“第十二屆全國人機(jī)語音通訊學(xué)術(shù)會議（NCMMSC2013）論文集[C];2013年

7 周昊朗;王嵐;陳珂;;一個面向說話人識別的漢語語音數(shù)據(jù)庫[A];第六屆全國人機(jī)語音通訊學(xué)術(shù)會議論文集[C];2001年

8 龍川;景新幸;楊海燕;;矢量量化與協(xié)方差矩陣結(jié)合的說話人識別方法[A];泛在信息社會中的聲學(xué)——中國聲學(xué)學(xué)會2010年全國會員代表大會暨學(xué)術(shù)會議論文集[C];2010年

9 周昊朗;王嵐;吳璽宏;遲惠生;;一個面向說話人識別的漢語語音數(shù)據(jù)庫[A];信號與信息處理技術(shù)——第一屆信號與信息處理聯(lián)合學(xué)術(shù)會議論文集[C];2002年

10 王波;王炳錫;徐毅瓊;;基于多分類器的抗噪聲說話人識別系統(tǒng)[A];現(xiàn)代通信理論與信號處理進(jìn)展——2003年通信理論與信號處理年會論文集[C];2003年

相關(guān)重要報紙文章前2條

1 汪永安;科大訊飛說話人識別技術(shù)世界領(lǐng)先[N];安徽日報;2008年

2 吳長鋒;科大訊飛勇奪說話人識別國際大賽第一[N];科技日報;2008年

相關(guān)博士學(xué)位論文前10條

1 徐瓏婷;基于稀疏分解的說話人識別技術(shù)研究[D];南京郵電大學(xué);2017年

2 陸偉;基于缺失特征的文本無關(guān)說話人識別魯棒性研究[D];中國科學(xué)技術(shù)大學(xué);2008年

3 俞一彪;基于互信息理論的說話人識別研究[D];上海大學(xué);2004年

4 付中華;說話人識別系統(tǒng)魯棒性研究[D];西北工業(yè)大學(xué);2004年

5 侯麗敏;基于非線性理論和信息融合的說話人識別[D];上海大學(xué);2005年

6 雷震春;支持向量機(jī)在說話人識別中的應(yīng)用研究[D];浙江大學(xué);2006年

7 姚志強(qiáng);說話人識別中提高GMM性能方法的研究[D];中國科學(xué)技術(shù)大學(xué);2006年

8 包永強(qiáng);噪聲環(huán)境下說話人識別的研究[D];東南大學(xué);2006年

9 林琳;基于模糊聚類與遺傳算法的說話人識別理論研究及應(yīng)用[D];吉林大學(xué);2007年

10 解焱陸;基于特征變換和分類的文本無關(guān)電話語音說話人識別研究[D];中國科學(xué)技術(shù)大學(xué);2007年

相關(guān)碩士學(xué)位論文前10條

1 梅文星;說話人識別中通用背景模型研究及深度學(xué)習(xí)初探[D];浙江大學(xué);2019年

2 樊云云;面向說話人識別的深度學(xué)習(xí)方法研究[D];南昌航空大學(xué);2019年

3 楊志勇;基于模糊神經(jīng)網(wǎng)絡(luò)的說話人識別方法研究[D];南昌航空大學(xué);2019年

4 韓旭;噪聲環(huán)境下基于RNN的說話人識別方法研究[D];哈爾濱理工大學(xué);2019年

5 徐鈺婷;跨語言背景下基于單元音的說話人識別研究[D];深圳大學(xué);2018年

6 陳莉芬;基于英語爆破音和摩擦音的跨語言說話人識別研究[D];深圳大學(xué);2018年

7 易中曼;關(guān)于法庭說話人識別的評估[D];西南政法大學(xué);2018年

8 郭慧陽;基于深度學(xué)習(xí)的說話人識別技術(shù)研究[D];廈門大學(xué);2018年

9 楊楠;基于深度學(xué)習(xí)的說話人識別研究與實(shí)現(xiàn)[D];鄭州大學(xué);2019年

10 方祥;基于多信息融合的說話人識別[D];哈爾濱理工大學(xué);2018年

本文編號：2594965

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://www.sikaile.net/kejilunwen/xinxigongchenglunwen/2594965.html

上一篇：分布式天線系統(tǒng)中的傳輸設(shè)計(jì)
下一篇：大容量接入網(wǎng)多業(yè)務(wù)承載及性能研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于模糊神經(jīng)網(wǎng)絡(luò)的說話人識別方法研究