當(dāng)前位置：主頁 > 科技論文 > 網(wǎng)絡(luò)通信論文 >

基于深度學(xué)習(xí)的說話人識(shí)別研究

發(fā)布時(shí)間：2020-10-11 19:48

　　隨著科學(xué)技術(shù)的發(fā)展,說話人識(shí)別在深度學(xué)習(xí)背景下不斷有新突破和新進(jìn)展。目前占主導(dǎo)地位的是以身份認(rèn)證矢量I-vector為基礎(chǔ)的說話人識(shí)別系統(tǒng)。本文重點(diǎn)研究了如何改進(jìn)傳統(tǒng)特征參數(shù),以及如何通過深度學(xué)習(xí)對(duì)說話人識(shí)別建模這兩個(gè)問題。從不同的輸入類型和不同的神經(jīng)網(wǎng)絡(luò)兩個(gè)方面出發(fā),探究系統(tǒng)識(shí)別性能。研究如何利用深度學(xué)習(xí)消除人類感知語音和計(jì)算機(jī)處理語音之間的辨識(shí)偏差鴻溝,如何拉近計(jì)算機(jī)所能學(xué)習(xí)到的聽覺特征和人所能感知的特征之間的距離,實(shí)現(xiàn)計(jì)算機(jī)更接近于基于理解的人類識(shí)別結(jié)果這一目標(biāo)�；谝陨涎芯恐攸c(diǎn),本文內(nèi)容包括以下幾個(gè)部分:(1)研究并改進(jìn)了基于I-vector的說話人識(shí)別算法研究傳統(tǒng)特征提取算法,設(shè)計(jì)并搭建了基于I-vector的說話人識(shí)別系統(tǒng),分析現(xiàn)有的I-vector優(yōu)缺點(diǎn),在此基礎(chǔ)上改進(jìn)I-vector身份認(rèn)證矢量的提取過程,為之后作為輸入,和不同神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)連接搭建說話人識(shí)別系統(tǒng)作鋪墊。(2)研究了基于LSTM和DBN的說話人識(shí)別方法構(gòu)建時(shí)序網(wǎng)絡(luò)長短時(shí)記憶網(wǎng)絡(luò)LSTM模型和靜態(tài)的深度置信網(wǎng)絡(luò)DBN的說話人識(shí)別模型,最優(yōu)化設(shè)置網(wǎng)絡(luò)參數(shù)值以及每一層網(wǎng)絡(luò)的輸入輸出節(jié)點(diǎn)數(shù),將普通特征參數(shù)和改進(jìn)后的身份認(rèn)證矢量作為輸入,探討不同層數(shù)的深度置信網(wǎng)絡(luò)和不同特征參數(shù)類型組合后對(duì)說話人識(shí)別結(jié)果的影響。(3)研究了基于語譜圖和CNN的說話人識(shí)別方法將不同語音段的語譜圖通過一定的采樣,統(tǒng)一至相同的大小,消除不同長度音頻時(shí)序不同的問題,將之作為CNN的VGG網(wǎng)絡(luò)和殘差網(wǎng)絡(luò)的輸入,最優(yōu)設(shè)置兩個(gè)網(wǎng)絡(luò)結(jié)構(gòu)的層數(shù)和節(jié)點(diǎn)設(shè)置,進(jìn)行說話人識(shí)別實(shí)驗(yàn),探討在CNN網(wǎng)絡(luò)下能否使說話人識(shí)別系統(tǒng)性能得到提升。并且進(jìn)行網(wǎng)絡(luò)融合嘗試,增加雙層DNN網(wǎng)絡(luò),驗(yàn)證性能是否有提升。本文在研究了傳統(tǒng)特征參數(shù)身份認(rèn)證矢量的基礎(chǔ)上,重點(diǎn)探究了深度學(xué)習(xí)的說話人識(shí)別建模問題,將傳統(tǒng)特征和深層學(xué)習(xí)架構(gòu)聯(lián)系在一起,對(duì)不同特征之間的系統(tǒng)性能橫向和縱向進(jìn)行了對(duì)比,探究對(duì)說話人識(shí)別系統(tǒng)來說最優(yōu)的特征參數(shù),哪種參數(shù)能最大化保留說話人個(gè)性信息,更有身份辨識(shí)度,以及哪種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)最適合說話人識(shí)別系統(tǒng)。
【學(xué)位單位】：北京郵電大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位年份】：2018
【中圖分類】：TN912.34;TP181
【部分圖文】：

序列,特征提取,預(yù)處理,預(yù)加重

圖２－１?說話人識(shí)別系統(tǒng)框架??先通常在進(jìn)行特征提取之前，都要對(duì)原始序列做一系列的預(yù)處理。用換（ｃｈａｎｎｅｌ?ｃｏｎｖｅｒｓｉｏｎ）、預(yù)加重（ｐｒｅ－ｅｍｐｈａｓｉｓ）、重米樣（ｒｅｓａｍｐｌｅ）、）和力口窗（ｗｉｎｄｏｗｉｎｇ）。??

目標(biāo)用戶,模型訓(xùn)練,研究概述,參數(shù)訓(xùn)練

第二章說話人識(shí)別研究概述關(guān)定義上來說，ＧＭＭ是一種參數(shù)化（Ｐａｒａｏｄｅｌ），具備對(duì)實(shí)際數(shù)據(jù)極強(qiáng)的表征力，但強(qiáng)，其負(fù)面效應(yīng)也會(huì)越明顯：參數(shù)規(guī)模也動(dòng)ＧＭＭ的參數(shù)訓(xùn)練才能得到－個(gè)更加通或者幾個(gè)小時(shí)的語音數(shù)據(jù)，都遠(yuǎn)遠(yuǎn)無法滿足稀缺又容易讓ＧＭＭ出現(xiàn)過擬合（Ｏｖｅｒ－ｆｍｉｎｇ因此，盡管一開始ＧＭＭ在小規(guī)模的文本無框架的性能，但它卻遠(yuǎn)遠(yuǎn)無法滿足實(shí)際場(chǎng)

用戶模型,訓(xùn)練算法

泛化能力急劇衰退。因此，盡管一開始ＧＭＭ在小規(guī)模的文本無關(guān)數(shù)據(jù)集合上表??現(xiàn)出了超越傳統(tǒng)技術(shù)框架的性能，但它卻遠(yuǎn)遠(yuǎn)無法滿足實(shí)際場(chǎng)景下的需求。??圖２－２最初的目標(biāo)用戶模型訓(xùn)練??２０００年，ＤＡ?Ｒｅｙｎｏｌｄｓ１１２１的團(tuán)隊(duì)提出了一種改進(jìn)的方案：既然沒法從目標(biāo)??用戶那里收集到足夠的語音，那就可以從其他地方收集大量非目標(biāo)用戶的聲音，??將這些非目標(biāo)用戶數(shù)據(jù)（聲紋識(shí)別領(lǐng)域稱為背景數(shù)據(jù)）混合起來充分訓(xùn)練出一個(gè)??ＧＭＭ，這個(gè)ＧＭＭ可以看作是對(duì)語音的表征，但由于它是從大量身份的混雜數(shù)??據(jù)中訓(xùn)練而成，它又不具備表征具體某位說話人身份的能力。??該混合ＧＭＭ就是起到了類似的作用，它對(duì)語音特征在空間分布的概率模型??給出了一個(gè)良好的預(yù)先估計(jì)，不必再像過去那樣從頭開始計(jì)算ＧＭＭ的參數(shù)??（ＧＭＭ的參數(shù)估計(jì)是一種稱為ＥＭ的迭代式估計(jì)算法），只需要基于目標(biāo)用戶的??數(shù)據(jù)在這個(gè)混合ＧＭＭ上進(jìn)行參數(shù)的微調(diào)即可實(shí)現(xiàn)目標(biāo)用戶參數(shù)的估計(jì)
【參考文獻(xiàn)】

相關(guān)期刊論文前8條

1 楊瑞田;周萍;楊青;;TEO能量與Mel倒譜混合參數(shù)應(yīng)用于說話人識(shí)別[J];計(jì)算機(jī)仿真;2017年08期

2 林舒都;邵曦;;基于i-vector和深度學(xué)習(xí)的說話人識(shí)別[J];計(jì)算機(jī)技術(shù)與發(fā)展;2017年06期

3 歐國振;孫林慧;薛海雙;;基于重組超矢量的GMM-SVM說話人辨認(rèn)系統(tǒng)[J];計(jì)算機(jī)技術(shù)與發(fā)展;2017年07期

4 周雷;龍艷花;魏浩然;;一種新型的與文本相關(guān)的說話人識(shí)別方法研究[J];上海師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2017年02期

5 楊瑩春;鄧立才;;基于GMM托肯配比相似度校正得分的說話人識(shí)別[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2017年01期

6 李燕萍;陶定元;林樂;;基于DTW模型補(bǔ)償?shù)膫窝b語音說話人識(shí)別研究[J];計(jì)算機(jī)技術(shù)與發(fā)展;2017年01期

7 ;COMBINATION OF PITCH SYNCHRONOUS ANALYSIS AND FISHER CRITERION FOR SPEAKER IDENTIFICATION[J];Journal of Electronics(China);2007年06期

8 ;A new frequency scale of Chinese whispered speech in the application of speaker identification[J];Progress in Natural Science;2006年10期

本文編號(hào)：2837037

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://www.sikaile.net/kejilunwen/wltx/2837037.html

上一篇：基于室內(nèi)環(huán)境特征的無線定位算法研究
下一篇：大規(guī)模MIMO系統(tǒng)上行鏈路低復(fù)雜度信號(hào)檢測(cè)算法研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深度學(xué)習(xí)的說話人識(shí)別研究