與文本無(wú)關(guān)的說(shuō)話人識(shí)別技術(shù)研究

發(fā)布時(shí)間：2022-01-24 22:06

　　說(shuō)話人識(shí)別又被稱為聲紋識(shí)別,是指從人聲中提取身份信息從而實(shí)現(xiàn)對(duì)人的身份判別。與實(shí)驗(yàn)室的理想條件相比,實(shí)際應(yīng)用場(chǎng)景中的說(shuō)話人識(shí)別問(wèn)題在于跨信道的識(shí)別結(jié)果較差,且實(shí)際應(yīng)用中,為方便采集音頻,用于訓(xùn)練聲紋模型的樣本量較小。因此,為了將說(shuō)話人識(shí)別應(yīng)用于智能家居場(chǎng)景下對(duì)多設(shè)備音頻采集、訓(xùn)練及測(cè)試的工程應(yīng)用中,需要重點(diǎn)研究在樣本量較小的情況下的說(shuō)話人識(shí)別問(wèn)題。首先,本文建立了適用于小樣本多設(shè)備情況下的說(shuō)話人識(shí)別的數(shù)據(jù)庫(kù)。說(shuō)話人識(shí)別數(shù)據(jù)庫(kù)人數(shù)為31人,每人錄音時(shí)長(zhǎng)為10分鐘,其中朗讀部分約為8分鐘,該部分作為訓(xùn)練集,自由發(fā)言部分約為2分鐘,該部分組成測(cè)試集。本文使用多個(gè)設(shè)備進(jìn)行數(shù)據(jù)采集,針對(duì)不同的設(shè)備選擇合適的參數(shù)進(jìn)行預(yù)處理步驟,針對(duì)每個(gè)設(shè)備,使用對(duì)應(yīng)設(shè)備采集的音頻進(jìn)行說(shuō)話人模型建立與識(shí)別。當(dāng)訓(xùn)練設(shè)備與測(cè)試設(shè)備不一致時(shí),識(shí)別準(zhǔn)確率下降嚴(yán)重。因此對(duì)于待測(cè)音頻,在進(jìn)行設(shè)備識(shí)別后,使用對(duì)應(yīng)設(shè)備訓(xùn)練的說(shuō)話人模型進(jìn)行識(shí)別,從而提高由多個(gè)錄音設(shè)備形成的說(shuō)話人識(shí)別平臺(tái)的說(shuō)話人識(shí)別準(zhǔn)確率。其次,以梅爾倒譜頻率系數(shù)及高斯混合模型-背景通用模型作為說(shuō)話人識(shí)別算法的基線模型,并在自建數(shù)據(jù)庫(kù)上進(jìn)行實(shí)驗(yàn)。本文設(shè)計(jì)并實(shí)現(xiàn)了針對(duì)...

【文章來(lái)源】：電子科技大學(xué)四川省 211工程院校 985工程院校教育部直屬院校

【文章頁(yè)數(shù)】：74 頁(yè)

【學(xué)位級(jí)別】：碩士

【部分圖文】：

與文本無(wú)關(guān)的開集說(shuō)話人識(shí)別系統(tǒng)評(píng)價(jià)標(biāo)準(zhǔn)

對(duì)比圖,預(yù)加重,語(yǔ)音,時(shí)域

第三章特征提取算法設(shè)計(jì)第三章特征提取算法設(shè)計(jì)本章介紹了多種音頻預(yù)處理方法以及音頻特征提取方法，并提出將增強(qiáng)經(jīng)驗(yàn)?zāi)Ｊ椒纸饫碚撨\(yùn)用至特征提取過(guò)程中，得到新的特征作為說(shuō)話人識(shí)別特征。3.1音頻數(shù)據(jù)預(yù)處理3.1.1預(yù)加重當(dāng)語(yǔ)音信號(hào)的頻率大于800Hz時(shí)，平均功率譜會(huì)按6dB/倍頻的程度衰減。因此語(yǔ)音信號(hào)頻譜中的高頻成分較少，需要在求信號(hào)頻譜前進(jìn)行預(yù)加重處理。通常，使用一階數(shù)字濾波器實(shí)現(xiàn)預(yù)加重功能，表達(dá)式如下H(z)=1μz1(3-1)其中，μ通常取0.9到1之間的數(shù)值。下圖為對(duì)語(yǔ)音信號(hào)進(jìn)行預(yù)加重前后的對(duì)比圖示。圖3-1預(yù)加重前后語(yǔ)音信號(hào)時(shí)域?qū)Ρ葓D13

對(duì)比圖,語(yǔ)音,預(yù)加重,頻域

電子科技大學(xué)碩士學(xué)位論文圖3-2預(yù)加重前后語(yǔ)音信號(hào)頻域?qū)Ρ葓D3.1.2分幀加窗語(yǔ)音信號(hào)作為一個(gè)非平穩(wěn)過(guò)程。但在較短的時(shí)間間隔如20毫秒至30毫秒內(nèi)，可認(rèn)為語(yǔ)音信號(hào)是短時(shí)平穩(wěn)的。因此，可以將語(yǔ)音信號(hào)分割稱為多個(gè)20-30毫秒的語(yǔ)音片段，以滿足后續(xù)階段對(duì)信號(hào)平穩(wěn)性的要求。保持語(yǔ)音幀與幀之間的平滑過(guò)渡和信號(hào)連續(xù)性，通常相鄰幀間保留大約三分之一幀長(zhǎng)度重疊。分幀的操作通過(guò)滑動(dòng)窗口實(shí)現(xiàn)。將窗函數(shù)w(n)與語(yǔ)音信號(hào)序列s(n)，相乘結(jié)果sω(n)=s(n)ω(n)從而為當(dāng)前鄭通常，分幀的窗函數(shù)為矩形窗和漢明窗。通常，窗函數(shù)表達(dá)式如下所示：矩形窗：w(n)=1,0≤n≤(N1)0,n=else(3-2)漢明窗：w(n)=0.540.46cos[2πn/(N1)],0≤n≤N10,n=else(3-3)漢寧窗：14

【參考文獻(xiàn)】：
期刊論文
[1]基于多模態(tài)生成對(duì)抗網(wǎng)絡(luò)和三元組損失的說(shuō)話人識(shí)別[J]. 陳瑩,陳湟康.  電子與信息學(xué)報(bào). 2020(02)
[2]加性噪聲條件下魯棒說(shuō)話人確認(rèn)[J]. 張二華,王明合,唐振民.  電子學(xué)報(bào). 2019(06)
[3]基于MFCC與GFCC混合特征參數(shù)的說(shuō)話人識(shí)別[J]. 周萍,沈昊,鄭凱鵬.  應(yīng)用科學(xué)學(xué)報(bào). 2019(01)
[4]基于多特征i-vector的短語(yǔ)音說(shuō)話人識(shí)別算法[J]. 孫念,張毅,林海波,黃超.  計(jì)算機(jī)應(yīng)用. 2018(10)
[5]說(shuō)話人識(shí)別中的分?jǐn)?shù)域語(yǔ)速歸一化[J]. 艾斯卡爾·肉孜,王東,李藍(lán)天,鄭方,張曉東,金磐石.  清華大學(xué)學(xué)報(bào)(自然科學(xué)版). 2018(04)
[6]基于改進(jìn)的深度神經(jīng)網(wǎng)絡(luò)的說(shuō)話人辨認(rèn)研究[J]. 趙艷,呂亮,趙力.  電子器件. 2017(05)
[7]基于小波倒譜系數(shù)和概率神經(jīng)網(wǎng)絡(luò)的取證說(shuō)話人識(shí)別模型[J]. 雷磊,佘堃.  計(jì)算機(jī)應(yīng)用研究. 2018(04)
[8]基于GMM非線性變換的說(shuō)話人識(shí)別算法的研究[J]. 羅文華,楊彥,齊健,趙力.  電子器件. 2017(03)
[9]基于深度神經(jīng)網(wǎng)絡(luò)和Bottleneck特征的說(shuō)話人識(shí)別系統(tǒng)[J]. 田垚,蔡猛,何亮,劉加.  清華大學(xué)學(xué)報(bào)(自然科學(xué)版). 2016(11)
[10]噪聲環(huán)境下文本相關(guān)說(shuō)話人識(shí)別方法改進(jìn)[J]. 譚萍,邢玉娟.  西安工程大學(xué)學(xué)報(bào). 2016(05)

博士論文
[1]基于結(jié)構(gòu)化深度學(xué)習(xí)的語(yǔ)音識(shí)別自適應(yīng)技術(shù)研究[D]. 譚天.上海交通大學(xué) 2018
[2]復(fù)雜信道下的說(shuō)話人識(shí)別[D]. 郭武.中國(guó)科學(xué)技術(shù)大學(xué) 2007

碩士論文
[1]面向說(shuō)話人識(shí)別的深度學(xué)習(xí)方法研究[D]. 樊云云.南昌航空大學(xué) 2019
[2]基于模糊神經(jīng)網(wǎng)絡(luò)的說(shuō)話人識(shí)別方法研究[D]. 楊志勇.南昌航空大學(xué) 2019
[3]基于x-vector的說(shuō)話人識(shí)別研究[D]. 蔡國(guó)都.北京交通大學(xué) 2019
[4]基于附加間隔損失函數(shù)的聲紋識(shí)別[D]. 樊磊.南京大學(xué) 2019
[5]基于深度神經(jīng)網(wǎng)絡(luò)的聲紋欺騙檢測(cè)研究[D]. 陳柱欣.華南理工大學(xué) 2019
[6]基于神經(jīng)網(wǎng)絡(luò)的聲紋識(shí)別研究[D]. 邱子璇.電子科技大學(xué) 2019
[7]說(shuō)話人識(shí)別中通用背景模型研究及深度學(xué)習(xí)初探[D]. 梅文星.浙江大學(xué) 2019
[8]噪聲環(huán)境下說(shuō)話人識(shí)別的魯棒性研究[D]. 張洪冉.南京郵電大學(xué) 2018
[9]面向云桌面圖片的OCR關(guān)鍵技術(shù)研究[D]. 段少明.哈爾濱工業(yè)大學(xué) 2018
[10]語(yǔ)音信號(hào)的增強(qiáng)及其識(shí)別算法[D]. 盧亞敏.南京信息工程大學(xué) 2018

本文編號(hào)：3607383

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://www.sikaile.net/kejilunwen/xinxigongchenglunwen/3607383.html

上一篇：高階SCMA系統(tǒng)關(guān)鍵技術(shù)研究
下一篇：多用戶MIMO系統(tǒng)的干擾協(xié)調(diào)技術(shù)研究

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

與文本無(wú)關(guān)的說(shuō)話人識(shí)別技術(shù)研究