天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深層神經(jīng)網(wǎng)絡的語音增強方法研究

發(fā)布時間:2021-03-12 10:27

  語音增強是語音信號處理研究領域的一個重要分支。在過去的幾十年中,有很多無監(jiān)督的語音增強方法被提出,它們主要是通過先估計噪聲的譜信息,然后從帶噪語譜中將估計的噪聲譜減掉以得到對干凈語音譜的預測。但是由于噪聲的隨機性和突變性,使得對噪聲的跟蹤和估計變得困難。同時在傳統(tǒng)的語音增強方法中,考慮到噪聲和語音間的相互作用關系很復雜,就需要一些對信號間的獨立性假設以及對特征分布的高斯性假設,而這些假設通常是不合理的。首先,傳統(tǒng)的語音增強方法會殘留很多噪聲,甚至是音樂噪聲。其次,語音的細節(jié)也在較大程度上受到破壞,這主要體現(xiàn)在對低信噪比語音的增強中。再者,極端非平穩(wěn)噪聲一直是傳統(tǒng)語音增強方法中比較棘手的地方,因為非平穩(wěn)噪聲的突發(fā)性,使得它始終處于被欠估計狀態(tài),難以從帶噪語音中去掉,可實際聲學環(huán)境中,各種非平穩(wěn)噪聲又是大概率發(fā)生事件。最后,傳統(tǒng)的語音增強方法易引入一些非線性失真,使得其對后端的語音識別或語音編碼產(chǎn)生不良影響。 近年來,隨著深層神經(jīng)網(wǎng)絡(Deep Neural Network, DNN)在語音識別領域的成功應用,給了語音增強任務的研究人員很多啟發(fā)。DNN的深層非線性結構可以被設計成一個精細的降噪濾波器。同時基于大數(shù)據(jù)訓練,DNN可以充分學習帶噪語音和干凈語音之間的復雜的非線性關系。另外DNN的訓練是離線學習的,如同人一樣,它能記住一些噪聲的模式,因而可以很好地抑制一些非平穩(wěn)噪聲。而在本論文中,我們提出一種幾乎無任何假設的基于DNN的語音增強方法,并針對實際環(huán)境中語音增強問題展開了一系列系統(tǒng)性的研究。 首先我們提出了基于DNN的語音增強方法框架,對數(shù)功率譜被用作訓練DNN模型的特征。DNN則作為映射函數(shù),可以從帶噪語音中預測出干凈語音。而DNN的訓練是分兩步進行的,即預訓練和有監(jiān)督訓練。預訓練是基于受限玻爾茲曼機(Restricted Boltzmann Machine, RBM)的逐層貪婪式初始化,它可以防止DNN陷入局部最優(yōu)。而有監(jiān)督調(diào)優(yōu)可以精準地學習帶噪語音和干凈語音之間的非線性關系。 其次,DNN是一種有監(jiān)督的學習模型,凡是有監(jiān)督的模型都存在如何應對測試集不匹配問題,也即如何提升系統(tǒng)的泛化能力。上百種類型的噪聲數(shù)據(jù)被用來構建大規(guī)模訓練數(shù)據(jù),以此提高DNN模型對未見的測試噪聲環(huán)境的適應性。同時我們發(fā)現(xiàn),通過此種方法,系統(tǒng)對非平穩(wěn)噪聲有非常強的抑制能力。噪聲告知訓練也可以進一步地增強模型對測試噪聲環(huán)境的預見能力。而丟棄(Dropout)法可以防止訓練出現(xiàn)過擬合現(xiàn)象。另外,我們還針對DNN作為回歸模型出現(xiàn)的過平滑問題,提出了全局方差均衡方法以提升增強的語音的聽感。 再者,對測試中的不匹配帶噪語音需要做自適應,這個不匹配主要有:能量不匹配,噪聲環(huán)境不匹配和語言不匹配等方面。因此我們分別在特征層面,提出了均值移位方法,來解決測試語音的特征分布不一致的問題。而對于噪聲類型不匹配問題,我們提出了一種動態(tài)的噪聲告知訓練方法,即先用IBM動態(tài)地估計每一幀的噪聲,然后用來輔助DNN的學習。語言不匹配問題,主要存在于跨語種測試的時候,由于不同語系發(fā)音上的差異性導致的丟音問題。我們提出了通過轉(zhuǎn)移學習的方法,來自適應地解決這個問題。 最后,對數(shù)功率譜上的最小均方誤差是訓練DNN的目標函數(shù),但是直接去優(yōu)化這個目標函數(shù)有一定困難的。我們提出了一種間接的目標函數(shù)優(yōu)化方式?紤]到對數(shù)功率譜域上的各個維度間是相互獨立的,因此我們把梅爾倒頻譜參數(shù)(Mel Frequency Cepstrum Coefficient, MFCC)融合到系統(tǒng)中來,讓DNN去聯(lián)合優(yōu)化對數(shù)功率譜特征和MFCC特征。利用MFCC的每個參數(shù)都包含了頻率各個維度間的相關性來限制對對數(shù)功率譜的估計,以得到一個在頻率各個維度上誤差更具有一致性的特征預測。除了MFCC這種連續(xù)性信息,我們還可以用一些具有分類特性的元信息來作為對對數(shù)功率譜預測的輔助項,比如IBM,它顯式地表征了當前時間頻率單元是噪聲主導的還是語音主導的。另外,經(jīng)過聚類的噪聲編碼也用來輔助DNN對對數(shù)功率譜特征的學習。 在本論文的最后,我們給出了全文總結,并對該課題的未來進行了展望。

【學位授予單位】:中國科學技術大學
【學位級別】:博士
【學位授予年份】:2015
【分類號】:TN912.35;TP183
【目錄】:

文章目錄
摘要
ABSTRACT
目錄
插圖
表格
第一章 緒論
    1.1 語音增強
        1.1.1 語音增強的定義
        1.1.2 語音增強的分類
        1.1.3 語音增強的研究意義
    1.2 單聲道語音增強的發(fā)展歷史和研究概況
    1.3 單聲道語音增強方法闡述
        1.3.1 帶噪語音的信號模型
        1.3.2 傳統(tǒng)單聲道語音增強算法
        1.3.3 有監(jiān)督語音增強算法
    1.4 本論文的研究內(nèi)容和目標概述
第二章 基于深層神經(jīng)網(wǎng)絡的語音增強
    2.1 引言
    2.2 基于回歸深層神經(jīng)網(wǎng)絡的語音增強
        2.2.1 SEDNN的原理
        2.2.2 SEDNN的無監(jiān)督預訓練
        2.2.3 SEDNN的有監(jiān)督調(diào)優(yōu)
    2.3 實驗和結果
        2.3.1 實驗配置
        2.3.2 實驗分析和結論
    2.4 本章小結
第三章 泛化的基于深層神經(jīng)網(wǎng)絡的語音增強
    3.1 引言
    3.2 基于DNN的語音增強的泛化方法
        3.2.1 基線系統(tǒng)
        3.2.2 全局方差均衡
        3.2.3 Dropout
        3.2.4 噪聲告知訓練
        3.2.5 大數(shù)據(jù)訓練
    3.3 實驗和結果
        3.3.1 實驗配置
        3.3.2 實驗分析和結論
    3.4 本章總結
第四章 基于深層神經(jīng)網(wǎng)絡的語音增強中的自適應問題
    4.1 引言
    4.2 基于DNN的語音增強的自適應方案
        4.2.1 特征自適應
        4.2.2 噪聲自適應
        4.2.3 語言自適應
    4.3 實驗和結果
        4.3.1 實驗配置
        4.3.2 實驗分析和結論
    4.4 本章總結
第五章 多目標準則學習
    5.1 引言
    5.2 多目標準則學習
        5.2.1 與MFCC的聯(lián)合優(yōu)化
        5.2.2 與IBM的聯(lián)合優(yōu)化和后處理
        5.2.3 與噪聲編碼的聯(lián)合優(yōu)化
    5.3 實驗和結果
        5.3.1 實驗配置
        5.3.2 實驗分析和結論
    5.4 本章總結
第六章 總結
    6.1 本文的主要貢獻與創(chuàng)新點
    6.2 后續(xù)的研究工作
參考文獻
個人簡歷及在讀期間發(fā)表的學術論文
致謝

 

【共引文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 相征;朗朗;王靜;;基于基音頻能值的端點檢測算法[J];安徽工程科技學院學報(自然科學版);2008年03期

2 呂軍;馬曉娜;;漢語孤立詞聲韻分割算法的研究[J];安徽師范大學學報(自然科學版);2008年03期

3 王暉;顏靖華;李傳珍;蔡娟娟;;音頻貝葉斯諧波模型中參數(shù)的提取[J];中國傳媒大學學報(自然科學版);2007年04期

4 周長鋒;韓力群;;概率神經(jīng)網(wǎng)絡在文本無關說話人識別中的應用[J];北京工商大學學報(自然科學版);2007年01期

5 魏麗英;;簡析語音編碼[J];才智;2010年31期

6 由守杰;柏森;曹巍巍;;魯棒的DCT域音頻盲水印算法[J];重慶郵電大學學報(自然科學版);2008年02期

7 肖菲;陳賀新;許萬里;趙巖;;模式匹配和過零率檢測的音頻差錯掩蓋[J];吉林大學學報(信息科學版);2011年01期

8 李雨昕;;基于余弦過完備原子庫的語音信號MP稀疏分解[J];成都電子機械高等?茖W校學報;2011年02期

9 劉瀟營;鄭郁正;李國良;;多類支持向量機在語音識別中的應用[J];成都信息工程學院學報;2010年01期

10 王昌喜;楊先軍;徐強;馬祖長;孫怡寧;;基于三維加速度傳感器的上肢動作識別系統(tǒng)[J];傳感技術學報;2010年06期

中國博士學位論文全文數(shù)據(jù)庫 前10條

1 黃麗霞;非特定人魯棒性語音識別中前端濾波器的研究[D];太原理工大學;2011年

2 謝春輝;音頻隱藏分析方法研究[D];中國科學技術大學;2011年

3 包桂蘭;基于EPG的蒙古語標準音協(xié)同發(fā)音研究[D];內(nèi)蒙古大學;2011年

4 呂釗;噪聲環(huán)境下的語音識別算法研究[D];安徽大學;2011年

5 姜濤;網(wǎng)絡環(huán)境下說話人識別關鍵技術研究[D];哈爾濱工業(yè)大學;2011年

6 肖文斌;基于耦合隱馬爾可夫模型的滾動軸承故障診斷與性能退化評估研究[D];上海交通大學;2011年

7 韓志艷;語音信號魯棒特征提取及可視化技術研究[D];東北大學;2009年

8 高林;育苗生產(chǎn)線氣吸式播種系統(tǒng)智能控制的研究[D];北京林業(yè)大學;2008年

9 汪云路;語音隱藏分析方法研究[D];中國科學技術大學;2008年

10 錢博;基于漢語元音映射的說話人識別技術研究[D];南京理工大學;2007年

中國碩士學位論文全文數(shù)據(jù)庫 前10條

1 劉繼芳;基于計算聽覺場景分析的混合語音分離研究[D];哈爾濱工程大學;2009年

2 王文姝;基于模糊理論的關鍵詞識別算法研究[D];哈爾濱工程大學;2010年

3 劉維巍;語音信號基音周期檢測算法研究[D];哈爾濱工程大學;2010年

4 樓佳;基于網(wǎng)絡QoS的AMR語音編碼算法研究[D];哈爾濱工程大學;2010年

5 陳晶;基于詞片網(wǎng)格的語音文檔主題分類[D];哈爾濱工程大學;2010年

6 朱妹麗;三種篡改情況下的音頻鑒定方法研究[D];大連理工大學;2010年

7 周翠梅;說話人識別技術的研究與實現(xiàn)[D];大連理工大學;2010年

8 甄會;欠定盲分離混合矩陣估計方法的研究[D];大連理工大學;2010年

9 張宇;基于倒譜特征的說話人識別方法研究[D];大連海事大學;2010年

10 劉亞玉;限定性文本的語料庫自動構建[D];中國海洋大學;2010年



本文編號:228334

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/shoufeilunwen/xxkjbs/228334.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶07cd1***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com