基于深度神經(jīng)網(wǎng)絡(luò)的聲紋欺騙檢測研究

發(fā)布時間：2020-10-31 15:43

　　如何防止假冒者的闖入,是聲紋識別研究中的重要課題之一。語音合成、語音轉(zhuǎn)換和錄音回放是闖入聲紋系統(tǒng)的若干手段。隨著語音合成和語音轉(zhuǎn)換技術(shù)的發(fā)展,利用現(xiàn)有的合成技術(shù)可以偽造出具有目標說話人聲音特性的語音。另一方面,隨著高質(zhì)量錄音和播放設(shè)備的日益增多,回放錄音的質(zhì)量越來越高,具有較強的攻擊性。為了提高聲紋識別系統(tǒng)的安全性,近年來聲紋欺騙檢測引起了人們的關(guān)注。目前,關(guān)于聲紋欺騙檢測的研究存在兩個局限:一方面,大部分研究人員專注于特征研究,并使用高斯混合模型和前饋全連接網(wǎng)絡(luò)(Deep neural networks,DNN)作為分類器,缺乏對于不同的基于深度神經(jīng)網(wǎng)絡(luò)的分類器的比較。另一方面,部分研究人員使用卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)作為分類器,存在計算量較大的問題。針對上述問題,本文對深度神經(jīng)網(wǎng)絡(luò)在聲紋欺騙檢測中的應(yīng)用展開研究,相關(guān)工作總結(jié)如下:1.研究基于時延神經(jīng)網(wǎng)絡(luò)(Time Delay Neural Network,TDNN)和注意力機制(ATTENTION)的聲紋欺騙檢測方法。在ASVspoof2015數(shù)據(jù)集上,TDNN-ATTENTION模型的等錯誤率(Equal Error Rate,EER)比DNN降低62%。在ASVspoof2017數(shù)據(jù)集上,相應(yīng)降低了11%。2.研究基于循環(huán)神經(jīng)網(wǎng)絡(luò)的聲紋欺騙檢測方法。本文研究了長短時記憶單元(Long Short-Term Memory,LSTM)和門控循環(huán)單元(Gated Recurrent Unit,GRU)兩種記憶單元。在ASVspoof2017數(shù)據(jù)集上,LSTM模型取得10.05%的EER;GRU模型的EER為9.60%,取得本文最好的實驗結(jié)果,與DNN相比EER降低了20%。3.研究了基于前饋序列記憶神經(jīng)網(wǎng)絡(luò)(Feedforward Sequential Memory Networks,FSMN)的聲紋欺騙檢測方法。FSMN與TDNN和RNN相比具有明顯的速度提升。在ASVspoof2017數(shù)據(jù)集上,簡化后的FSMN模型的EER為9.95%,與DNN相比EER降低了17%。在模型大小和等錯誤率近似相等的情況下,FSMN的計算耗時比LSTM減少了91%。
【學位單位】：華南理工大學
【學位級別】：碩士
【學位年份】：2019
【中圖分類】：TP183;TN912.3
【部分圖文】：

聲紋欺騙檢測研究歷史

示意圖,語音合成系統(tǒng),示意圖,頻譜包絡(luò)

華南理工大學碩士學位論文般是對語音信號進行短時傅里葉變換（ShortTimeFourierTransformation，STFT）得度譜，再去除時間和頻率上的周期性，進而得到頻譜包絡(luò)。由于頻譜包絡(luò)的維度較高以通常還需要對頻譜包絡(luò)進行降維，得到常見的梅爾倒譜（Mel Cepstrum）或者線（LineSpectralPairs，LSP）特征。合成時，聲碼器則是根據(jù)基頻特征和頻譜包絡(luò)特征構(gòu)出幅度譜，再結(jié)合一定的相位約束條件重構(gòu)出合成音頻。聲學模型是語音合成的核心模塊。聲學建模是利用統(tǒng)計學習的方法，在給定文本時，對語音的聲學參數(shù)的條件分布進行建模，即對條件概率 ( )進行建模，其中聲學特征，表示文本特征。

示意圖,語音轉(zhuǎn)換,示意圖

語音轉(zhuǎn)換是一種語音—語音的生成方法，是在保留語音語義的情況下，改變源說話人（Source Speaker）的語音個性特征信息，使轉(zhuǎn)換生成的語音具有目標說話人（TargetSpeaker）的個性特征信息。典型的語音轉(zhuǎn)換系統(tǒng)如圖 2-2 所示，其過程分為訓練和轉(zhuǎn)換兩個階段。由于語音轉(zhuǎn)換任務(wù)難以直接通過修改原始音頻來實現(xiàn)，所以語音轉(zhuǎn)換任務(wù)采用與語音合成類似的方法，利用聲碼器提取聲學特征再進行分析。訓練階段主要是提取并對齊源和目標語音的聲學特征，尋找兩者之間的對齊關(guān)系，通過訓練得到源說話人與目標說話人聲學特征之間的映射函數(shù)。轉(zhuǎn)換階段則是根據(jù)提供的源語音提取聲學特征，經(jīng)過映射函數(shù)輸出目標語音聲學特征，再利用語音合成的方法獲取目標語音。總得來說，語音轉(zhuǎn)換和語音合成一樣，具有同樣的局限性，即訓練的過程中需要先提取低維的頻譜包絡(luò)特征，再進行相應(yīng)的轉(zhuǎn)換和合成等操作。在這一過程中，頻譜的一些結(jié)構(gòu)信息會丟失，因此與真實語音的頻譜存在一定的差異性。在實際應(yīng)用中，由于語音轉(zhuǎn)換的音頻自然度較低，因此語音轉(zhuǎn)換的音頻相對于語音合成的音頻更加容易被識別。
【參考文獻】

相關(guān)博士學位論文前1條

1 胡亞軍;基于神經(jīng)網(wǎng)絡(luò)的統(tǒng)計參數(shù)語音合成方法研究[D];中國科學技術(shù)大學;2018年

相關(guān)碩士學位論文前4條

1 蔣君妍;面向高維數(shù)據(jù)的聚類算法改進研究[D];南京郵電大學;2018年

2 王治權(quán);基于注意力機制和改進型RNN的Web文本情感分析研究[D];蘭州大學;2018年

3 崔立梅;基于改進的GMM和頻率彎折的高質(zhì)量語音轉(zhuǎn)換算法的研究[D];南京郵電大學;2017年

4 雷文康;基于深度神經(jīng)網(wǎng)絡(luò)的音樂流派分類研究[D];華南理工大學;2017年

本文編號：2864149

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://www.sikaile.net/kejilunwen/xinxigongchenglunwen/2864149.html

上一篇：基于情境感知的智能家居節(jié)能系統(tǒng)的設(shè)計與實現(xiàn)
下一篇：一種基于AD9371的SDR硬件平臺

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深度神經(jīng)網(wǎng)絡(luò)的聲紋欺騙檢測研究