天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 信息工程論文 >

基于深度神經(jīng)網(wǎng)絡(luò)的聲紋欺騙檢測研究

發(fā)布時間:2020-10-31 15:43
   如何防止假冒者的闖入,是聲紋識別研究中的重要課題之一。語音合成、語音轉(zhuǎn)換和錄音回放是闖入聲紋系統(tǒng)的若干手段。隨著語音合成和語音轉(zhuǎn)換技術(shù)的發(fā)展,利用現(xiàn)有的合成技術(shù)可以偽造出具有目標說話人聲音特性的語音。另一方面,隨著高質(zhì)量錄音和播放設(shè)備的日益增多,回放錄音的質(zhì)量越來越高,具有較強的攻擊性。為了提高聲紋識別系統(tǒng)的安全性,近年來聲紋欺騙檢測引起了人們的關(guān)注。目前,關(guān)于聲紋欺騙檢測的研究存在兩個局限:一方面,大部分研究人員專注于特征研究,并使用高斯混合模型和前饋全連接網(wǎng)絡(luò)(Deep neural networks,DNN)作為分類器,缺乏對于不同的基于深度神經(jīng)網(wǎng)絡(luò)的分類器的比較。另一方面,部分研究人員使用卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)作為分類器,存在計算量較大的問題。針對上述問題,本文對深度神經(jīng)網(wǎng)絡(luò)在聲紋欺騙檢測中的應(yīng)用展開研究,相關(guān)工作總結(jié)如下:1.研究基于時延神經(jīng)網(wǎng)絡(luò)(Time Delay Neural Network,TDNN)和注意力機制(ATTENTION)的聲紋欺騙檢測方法。在ASVspoof2015數(shù)據(jù)集上,TDNN-ATTENTION模型的等錯誤率(Equal Error Rate,EER)比DNN降低62%。在ASVspoof2017數(shù)據(jù)集上,相應(yīng)降低了11%。2.研究基于循環(huán)神經(jīng)網(wǎng)絡(luò)的聲紋欺騙檢測方法。本文研究了長短時記憶單元(Long Short-Term Memory,LSTM)和門控循環(huán)單元(Gated Recurrent Unit,GRU)兩種記憶單元。在ASVspoof2017數(shù)據(jù)集上,LSTM模型取得10.05%的EER;GRU模型的EER為9.60%,取得本文最好的實驗結(jié)果,與DNN相比EER降低了20%。3.研究了基于前饋序列記憶神經(jīng)網(wǎng)絡(luò)(Feedforward Sequential Memory Networks,FSMN)的聲紋欺騙檢測方法。FSMN與TDNN和RNN相比具有明顯的速度提升。在ASVspoof2017數(shù)據(jù)集上,簡化后的FSMN模型的EER為9.95%,與DNN相比EER降低了17%。在模型大小和等錯誤率近似相等的情況下,FSMN的計算耗時比LSTM減少了91%。
【學位單位】:華南理工大學
【學位級別】:碩士
【學位年份】:2019
【中圖分類】:TP183;TN912.3
【部分圖文】:

基于深度神經(jīng)網(wǎng)絡(luò)的聲紋欺騙檢測研究


聲紋欺騙檢測研究歷史

示意圖,語音合成系統(tǒng),示意圖,頻譜包絡(luò)


華南理工大學碩士學位論文般是對語音信號進行短時傅里葉變換(ShortTimeFourierTransformation,STFT)得度譜,再去除時間和頻率上的周期性,進而得到頻譜包絡(luò)。由于頻譜包絡(luò)的維度較高以通常還需要對頻譜包絡(luò)進行降維,得到常見的梅爾倒譜(Mel Cepstrum)或者線(LineSpectralPairs,LSP)特征。合成時,聲碼器則是根據(jù)基頻特征和頻譜包絡(luò)特征構(gòu)出幅度譜,再結(jié)合一定的相位約束條件重構(gòu)出合成音頻。聲學模型是語音合成的核心模塊。聲學建模是利用統(tǒng)計學習的方法,在給定文本時,對語音的聲學參數(shù)的條件分布進行建模,即對條件概率 ( )進行建模,其中聲學特征, 表示文本特征。

示意圖,語音轉(zhuǎn)換,示意圖


語音轉(zhuǎn)換是一種語音—語音的生成方法,是在保留語音語義的情況下,改變源說話人(Source Speaker)的語音個性特征信息,使轉(zhuǎn)換生成的語音具有目標說話人(TargetSpeaker)的個性特征信息。典型的語音轉(zhuǎn)換系統(tǒng)如圖 2-2 所示,其過程分為訓練和轉(zhuǎn)換兩個階段。由于語音轉(zhuǎn)換任務(wù)難以直接通過修改原始音頻來實現(xiàn),所以語音轉(zhuǎn)換任務(wù)采用與語音合成類似的方法,利用聲碼器提取聲學特征再進行分析。訓練階段主要是提取并對齊源和目標語音的聲學特征,尋找兩者之間的對齊關(guān)系,通過訓練得到源說話人與目標說話人聲學特征之間的映射函數(shù)。轉(zhuǎn)換階段則是根據(jù)提供的源語音提取聲學特征,經(jīng)過映射函數(shù)輸出目標語音聲學特征,再利用語音合成的方法獲取目標語音。總得來說,語音轉(zhuǎn)換和語音合成一樣,具有同樣的局限性,即訓練的過程中需要先提取低維的頻譜包絡(luò)特征,再進行相應(yīng)的轉(zhuǎn)換和合成等操作。在這一過程中,頻譜的一些結(jié)構(gòu)信息會丟失,因此與真實語音的頻譜存在一定的差異性。在實際應(yīng)用中,由于語音轉(zhuǎn)換的音頻自然度較低,因此語音轉(zhuǎn)換的音頻相對于語音合成的音頻更加容易被識別。
【參考文獻】

相關(guān)博士學位論文 前1條

1 胡亞軍;基于神經(jīng)網(wǎng)絡(luò)的統(tǒng)計參數(shù)語音合成方法研究[D];中國科學技術(shù)大學;2018年


相關(guān)碩士學位論文 前4條

1 蔣君妍;面向高維數(shù)據(jù)的聚類算法改進研究[D];南京郵電大學;2018年

2 王治權(quán);基于注意力機制和改進型RNN的Web文本情感分析研究[D];蘭州大學;2018年

3 崔立梅;基于改進的GMM和頻率彎折的高質(zhì)量語音轉(zhuǎn)換算法的研究[D];南京郵電大學;2017年

4 雷文康;基于深度神經(jīng)網(wǎng)絡(luò)的音樂流派分類研究[D];華南理工大學;2017年



本文編號:2864149

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/xinxigongchenglunwen/2864149.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶a0188***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com