天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 信息工程論文 >

基于雙耳聲源定位的魯棒語音分離研究

發(fā)布時(shí)間:2017-03-26 09:06

  本文關(guān)鍵詞:基于雙耳聲源定位的魯棒語音分離研究,,由筆耕文化傳播整理發(fā)布。


【摘要】:語音分離技術(shù)是語音信號(hào)處理系統(tǒng)的重要前端,其性能表現(xiàn)對(duì)整個(gè)系統(tǒng)影響非常大。以往的研究大多做的是固定目標(biāo)聲源方位的語音分離研究,且在混響與噪聲的環(huán)境下性能下降十分明顯。本文從人耳的感知特性出發(fā),以雙耳空間信息為基礎(chǔ),研究魯棒的語音分離算法。本文提出的算法主要包含兩大部分:基于深度神經(jīng)網(wǎng)絡(luò)的雙耳聲源定位算法和定位與分離的迭代方法。(1)基于深度神經(jīng)網(wǎng)絡(luò)的雙耳聲源定位算法。人耳聽覺系統(tǒng)和神經(jīng)系統(tǒng)對(duì)聲信號(hào)層層遞進(jìn)的處理方式與近年來在機(jī)器學(xué)習(xí)領(lǐng)域非;馃岬纳疃壬窠(jīng)網(wǎng)絡(luò)對(duì)輸入信號(hào)的處理方式有一定的相似之處。本文將雙耳語音定位問題視為一個(gè)多分類的問題,訓(xùn)練一個(gè)頂層為softmax回歸結(jié)構(gòu)的深度神經(jīng)網(wǎng)絡(luò),輸出聲源處于每個(gè)方位的概率,取最大概率方位為聲源位置。在處理定位問題時(shí),本文提取的雙耳特征線索是互相關(guān)函數(shù)CCF(Cross Correlation Function)和耳間強(qiáng)度差I(lǐng)ID(Interaural Intensity Difference).在實(shí)驗(yàn)中,本文選取了定位準(zhǔn)確率作為評(píng)價(jià)標(biāo)準(zhǔn)。在高信噪比和短混響時(shí)間的環(huán)境下,本文提出的定位算法有接近100%的準(zhǔn)確率;在低信噪比和長混響時(shí)間的環(huán)境下,本文提出的定位算法的準(zhǔn)確率在70%以上。(2)定位與分離的迭代方法。本文中使用了耳間時(shí)間差I(lǐng)TD(Interaural Time Difference)和耳間強(qiáng)度差I(lǐng)ID計(jì)算IBM(Ideal Binary Mask)的方法實(shí)現(xiàn)語音分離。為了進(jìn)一步增強(qiáng)算法的魯棒性,本文提出了聲源定位與語音分離迭代的方法。整個(gè)分離過程簡單而言,首先根據(jù)空間線索對(duì)混合語音中的多個(gè)聲源進(jìn)行定位,將定位作為分離的依據(jù),來實(shí)現(xiàn)不同聲源數(shù)據(jù)流的重構(gòu);隨后對(duì)各個(gè)重構(gòu)之后的語音信號(hào)重新估計(jì)聲源方位,再使用修正后的聲源方位對(duì)混合語音重新進(jìn)行分離。在迭代若干次之后,輸出最后一次重構(gòu)的語音信號(hào)作為分離結(jié)果。在實(shí)驗(yàn)中,本文選擇了PESQ(Perceptual Evaluation of Speech Quality)來評(píng)估分離語音的質(zhì)量。在高信噪比和短混響時(shí)間的環(huán)境下,本文提出的分離算法的PESQ得分在2.5左右;低信噪比和長混響時(shí)間的環(huán)境下,本文提出的分析算法的PESQ得分在1.6左右。論文中使用的計(jì)算機(jī)合成雙耳信號(hào)采用了MIT媒體實(shí)驗(yàn)室提供的HRTF(Head Related Transfer Function)與單聲道語音卷積合成,實(shí)際采集的雙耳信號(hào)在實(shí)驗(yàn)室的消聲室中采用KERMAR人工頭采集完成。
【關(guān)鍵詞】:雙耳聲源定位 深度神經(jīng)網(wǎng)絡(luò) 語音分離 迭代
【學(xué)位授予單位】:東南大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TN912.3;TP183
【目錄】:
  • 摘要5-6
  • Abstract6-9
  • 第一章 緒論9-15
  • 1.1 語音分離技術(shù)的研究背景和意義9-10
  • 1.2 語音分離技術(shù)的研究現(xiàn)狀10-12
  • 1.3 論文主要研究內(nèi)容及目標(biāo)12-13
  • 1.3.1 雙耳語音多聲源定位12-13
  • 1.3.2 聲源定位和語音分離的迭代結(jié)構(gòu)13
  • 1.4 論文組織結(jié)構(gòu)13-15
  • 第二章 基于雙耳空間定位的語音分離方法介紹15-31
  • 2.1 人類的聽覺系統(tǒng)15-16
  • 2.1.1 人耳生理構(gòu)造與聽覺特點(diǎn)15
  • 2.1.2 空間聽覺15-16
  • 2.2 雙耳聲源定位線索16-20
  • 2.2.1 耳間時(shí)間差17-18
  • 2.2.2 耳間強(qiáng)度差18-19
  • 2.2.3 雙耳互相關(guān)函數(shù)19-20
  • 2.3 神經(jīng)網(wǎng)絡(luò)簡介20-23
  • 2.3.1 神經(jīng)元20-21
  • 2.3.2 淺層神經(jīng)網(wǎng)絡(luò)21-22
  • 2.3.3 深度神經(jīng)網(wǎng)絡(luò)22-23
  • 2.4 雙耳語音信號(hào)的采集23-27
  • 2.4.1 與頭相關(guān)傳遞函數(shù)23-24
  • 2.4.2 計(jì)算機(jī)合成雙耳信號(hào)24-26
  • 2.4.3 人工頭采集雙耳信號(hào)26-27
  • 2.5 基于雙耳空間定位的語音分離概述27-30
  • 2.5.1 原有的語音定位分離算法27-28
  • 2.5.2 魯棒性語音分離算法28-29
  • 2.5.3 實(shí)驗(yàn)與性能評(píng)估方法29-30
  • 2.6 本章小結(jié)30-31
  • 第三章 基于DNN的雙耳聲源定位算法31-47
  • 3.1 雙耳空間線索提取31-34
  • 3.1.1 預(yù)處理31-33
  • 3.1.2 特征提取33-34
  • 3.2 對(duì)ITD定位方法的改進(jìn)34-36
  • 3.3 基于DNN的聲源定位方法36-43
  • 3.3.1 DNN結(jié)構(gòu)36-39
  • 3.3.2 DNN訓(xùn)練算法39-42
  • 3.3.3 訓(xùn)練數(shù)據(jù)42
  • 3.3.4 訓(xùn)練參數(shù)42-43
  • 3.4 定位效果的評(píng)估43-46
  • 3.5 本章小結(jié)46-47
  • 第四章 定位與分離的迭代方法47-61
  • 4.1 迭代框架47-48
  • 4.2 混合語音的首次定位48
  • 4.3 分離方法48-49
  • 4.4 重定位與重分離方法49-50
  • 4.5 實(shí)驗(yàn)與仿真50-59
  • 4.5.1 適定聲源的迭代定位測試50-52
  • 4.5.2 欠定聲源的迭代定位測試52-56
  • 4.5.3 分離語音的質(zhì)量測試56-59
  • 4.6 本章小結(jié)59-61
  • 第五章 總結(jié)與展望61-63
  • 5.1 總結(jié)61-62
  • 5.2 展望62-63
  • 致謝63-65
  • 參考文獻(xiàn)65-69
  • 攻讀碩士學(xué)位期間參加的科研項(xiàng)目和完成的論文69

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 施劍;杜利民;;基于麥克陣列的實(shí)時(shí)盲語音分離系統(tǒng)[J];微計(jì)算機(jī)應(yīng)用;2008年05期

2 張磊;劉繼芳;項(xiàng)學(xué)智;;基于計(jì)算聽覺場景分析的混合語音分離[J];計(jì)算機(jī)工程;2010年14期

3 楊海濱;張軍;;基于模型的單通道語音分離綜述[J];計(jì)算機(jī)應(yīng)用研究;2010年11期

4 虞曉,胡光銳;基于高斯混合密度函數(shù)估計(jì)的語音分離[J];上海交通大學(xué)學(xué)報(bào);2000年01期

5 虞曉,胡光銳;基于高斯混合密度函數(shù)估計(jì)的語音分離[J];上海交通大學(xué)學(xué)報(bào);2000年02期

6 張雪峰,劉建強(qiáng),馮大政;一種快速的頻域盲語音分離系統(tǒng)[J];信號(hào)處理;2005年05期

7 陳鍇;盧晶;徐柏齡;;基于話者狀態(tài)檢測的自適應(yīng)語音分離方法的研究[J];聲學(xué)學(xué)報(bào);2006年03期

8 董優(yōu)麗;謝勤嵐;;不確定信號(hào)源個(gè)數(shù)的語音分離[J];現(xiàn)代電子技術(shù);2008年03期

9 徐方鑫;;瑞米茲交替算法在語音分離上的應(yīng)用[J];電腦知識(shí)與技術(shù);2012年03期

10 劉俊良;于鳳芹;;基于分離度變步長的自然梯度算法的語音分離[J];計(jì)算機(jī)工程與應(yīng)用;2013年21期

中國重要會(huì)議論文全文數(shù)據(jù)庫 前5條

1 史曉非;王憲峰;黃耀P;劉人杰;;一個(gè)推廣參數(shù)矢量算法在語音分離中的應(yīng)用[A];中國航海學(xué)會(huì)通信導(dǎo)航專業(yè)委員會(huì)2004學(xué)術(shù)年會(huì)論文集[C];2004年

2 劉學(xué)觀;陳雪勤;趙鶴鳴;;基于改進(jìn)遺傳算法的混疊語音分離研究[A];第十屆全國信號(hào)處理學(xué)術(shù)年會(huì)(CCSP-2001)論文集[C];2001年

3 林靜然;彭啟琮;邵懷宗;;基于麥克風(fēng)陣列的雙波束近場定位及語音分離[A];第二屆全國信息獲取與處理學(xué)術(shù)會(huì)議論文集[C];2004年

4 茅泉泉;趙力;;基于MIMO的盲信道語音分離技術(shù)[A];2004年全國物理聲學(xué)會(huì)議論文集[C];2004年

5 李量;杜憶;吳璽宏;Claude Alain;;人類聽皮層在語音分離中對(duì)頻率線索和空間線索的線性整合[A];增強(qiáng)心理學(xué)服務(wù)社會(huì)的意識(shí)和功能——中國心理學(xué)會(huì)成立90周年紀(jì)念大會(huì)暨第十四屆全國心理學(xué)學(xué)術(shù)會(huì)議論文摘要集[C];2011年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前2條

1 趙立恒;基于計(jì)算聽覺場景分析的單聲道語音分離研究[D];中國科學(xué)技術(shù)大學(xué);2012年

2 王雨;基于計(jì)算聽覺場景分析的單通道語音分離研究[D];華東理工大學(xué);2013年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 趙訓(xùn)川;基于計(jì)算聽覺場景分析和麥克風(fēng)陣列的語音分離的研究[D];燕山大學(xué);2015年

2 曹猛;基于計(jì)算聽覺場景分析和深度神經(jīng)網(wǎng)絡(luò)的混響語音分離[D];太原理工大學(xué);2016年

3 李梟雄;基于雙耳空間信息的語音分離研究[D];東南大學(xué);2015年

4 王瑜;基于計(jì)算聽覺場景分析的三通道語音分離研究[D];燕山大學(xué);2016年

5 王菁;基于計(jì)算聽覺場景分析的混合語音分離[D];燕山大學(xué);2016年

6 束佳明;基于雙耳聲源定位的魯棒語音分離研究[D];東南大學(xué);2016年

7 何求知;單通道語音分離關(guān)鍵技術(shù)研究[D];電子科技大學(xué);2015年

8 張暉;層疊與深度神經(jīng)網(wǎng)絡(luò)研究及其在語音分離中的應(yīng)用[D];內(nèi)蒙古大學(xué);2014年

9 童開國;多聲源環(huán)境下基于聽覺中樞系統(tǒng)的語音分離研究[D];重慶郵電大學(xué);2012年

10 陳雪勤;基于計(jì)算聲場景分析的混疊語音分離研究[D];蘇州大學(xué);2002年


  本文關(guān)鍵詞:基于雙耳聲源定位的魯棒語音分離研究,由筆耕文化傳播整理發(fā)布。



本文編號(hào):268567

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/xinxigongchenglunwen/268567.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶dc089***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com