基于麥克風陣列的語音分離算法研究
發(fā)布時間:2021-05-07 10:06
語音是人類通信中最方便、快捷的形式,隨著人工智能社會的到來,語音交互也成人機交互的第一選擇。然而在現(xiàn)實生活中,語音的背景環(huán)境往往是復雜且對語音質(zhì)量產(chǎn)生負面影響的,我們常常需要從復雜的噪聲背景中提取出我們感興趣的語音并且盡可能保持語音的保真度。目前研究者們已經(jīng)取得較多顯著的成果,但是依舊面臨著算法的魯棒性不強和目標語音的感知質(zhì)量不夠高等問題。本文將針對從復雜噪聲背景中提取出單目標語音和多說話人分離兩個場景做了一些深入的研究。首先是復雜噪聲背景中單目標聲源的語音分離的研究。針對噪聲的存在特別是低信噪比的場景,廣義互相關(GCC)的性能嚴重下降,從而嚴重影響廣義互相關-非負矩陣分解(GCC-NMF)的分離性能。針對該情形,本文提出了新的校準函數(shù)——將基于雙向長短記憶網(wǎng)絡(BLSTM)學習到的理想二值掩蔽(IBM)作為新的權重因子加入的GCC-PHAT(MWGCC-PHAT)和GCC-NMF(MWGCC-NMF)。實驗表明,MWGCC-NMF能夠分離出GCC-PHAT分離失敗的低信噪比混合語音?傮w性能上對比GCC-NMF,SDR相對提高了25.44%,PESQ提高了14.75%,OPS提高了...
【文章來源】:北京郵電大學北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:70 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景和意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 語音增強
1.2.2 多說話人分離
1.3 論文主要工作
1.4 文章結(jié)構(gòu)安排
第二章 麥克風陣列和語音分離的相關理論
2.1 麥克風陣列
2.1.1 傳播模型
2.1.1.1 遠場傳播模型
2.1.1.2 近場傳播模型
2.1.2 陣列拓撲結(jié)構(gòu)
2.1.2.1 均勻線性陣列
2.1.2.2 均勻圓形陣列
2.1.2.3 均勻球面陣列
2.2 語音分離
2.2.1 語音信號的特性
2.2.2 語音分離的數(shù)學模型
2.2.3 信息理論
2.2.3.1 KL散度
2.2.3.2 交叉熵
2.2.4 傳統(tǒng)語音分離算法
2.2.4.1 基于信號處理的語音增強
2.2.4.2 基于模型的語音分離方法
2.2.5 語音信號分離性能評價準則
2.2.5.1 PEASS準則
2.2.5.2 PESQ準則
2.2.5.3 SNR準則
2.2.5.4 BSS Eval準則
第三章 基于MWGCC-NMF的語音分離
3.1 MWGCC-NMF系統(tǒng)架構(gòu)
3.2 基于BLSTM的Mask估計
3.2.1 訓練
3.2.1.1 理想二值掩蔽
3.2.1.2 雙向長度記憶網(wǎng)絡
3.2.1.3 訓練集和交叉驗證集的生成
3.2.2 測試集
3.2.3 實驗結(jié)果和分析
3.3 MWGCC-NMF算法具體介紹
3.3.1 短時傅里葉變換及其逆變換
3.3.2 非負矩陣分解
3.3.3 Mask-Weighted的廣義互相關
3.3.4 Mask-weighted GCC-NMF和系數(shù)掩蔽
3.4 實驗結(jié)果與分析
3.4.1 窗口閾值對分離性能的影響
3.4.2 字典矩陣的列數(shù)對分離性能的影響
3.4.3 估計的信噪比閾值對分離性能的影響
3.4.4 MWGCC-NMF整體性能的分析和對比
第四章 基于Logistic回歸選擇策略的GCC-NMF
4.1 基于Logistic回歸選擇策略的GCC-NMF系統(tǒng)架構(gòu)
4.2 多說話人分離的GCC-NMF
4.2.1 非線性補償?shù)膹V義互相關
4.2.2 系數(shù)掩蔽
4.3 訓練Logistic回歸模型
4.3.1 Logistic回歸
4.3.2 訓練數(shù)據(jù)
4.3.3 特征選擇
4.3.4 訓練模型
4.4 實驗結(jié)果與分析
4.4.1 仿真實驗
4.4.2 實采數(shù)據(jù)
4.5 可視化的基于麥克風陣列的語音分離系統(tǒng)
第五章 總結(jié)與展望
5.1 總結(jié)
5.2 展望
致謝
參考文獻
攻讀學位期間取得的研究成果
【參考文獻】:
期刊論文
[1]基于聽覺掩蔽效應的語音增強算法[J]. 蔡軍,李飛,張毅. 計算機工程. 2017(07)
[2]基于環(huán)形麥克風陣列的遠場語音識別系統(tǒng)[J]. 支艷利,張云偉. 微型電腦應用. 2017(04)
[3]基于正則化約束最小二乘的穩(wěn)健頻率不變波束形成器設計方法[J]. 李靜,陳華偉. 數(shù)據(jù)采集與處理. 2012(02)
[4]基于近場波束形成的麥克風陣列語音增強方法[J]. 王冬霞,殷福亮. 電子與信息學報. 2007(01)
碩士論文
[1]語音分離算法的研究與實現(xiàn)[D]. 李雅婷.西安電子科技大學 2014
[2]語音盲分離算法研究[D]. 喬永鳳.太原理工大學 2007
本文編號:3173209
【文章來源】:北京郵電大學北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:70 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景和意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 語音增強
1.2.2 多說話人分離
1.3 論文主要工作
1.4 文章結(jié)構(gòu)安排
第二章 麥克風陣列和語音分離的相關理論
2.1 麥克風陣列
2.1.1 傳播模型
2.1.1.1 遠場傳播模型
2.1.1.2 近場傳播模型
2.1.2 陣列拓撲結(jié)構(gòu)
2.1.2.1 均勻線性陣列
2.1.2.2 均勻圓形陣列
2.1.2.3 均勻球面陣列
2.2 語音分離
2.2.1 語音信號的特性
2.2.2 語音分離的數(shù)學模型
2.2.3 信息理論
2.2.3.1 KL散度
2.2.3.2 交叉熵
2.2.4 傳統(tǒng)語音分離算法
2.2.4.1 基于信號處理的語音增強
2.2.4.2 基于模型的語音分離方法
2.2.5 語音信號分離性能評價準則
2.2.5.1 PEASS準則
2.2.5.2 PESQ準則
2.2.5.3 SNR準則
2.2.5.4 BSS Eval準則
第三章 基于MWGCC-NMF的語音分離
3.1 MWGCC-NMF系統(tǒng)架構(gòu)
3.2 基于BLSTM的Mask估計
3.2.1 訓練
3.2.1.1 理想二值掩蔽
3.2.1.2 雙向長度記憶網(wǎng)絡
3.2.1.3 訓練集和交叉驗證集的生成
3.2.2 測試集
3.2.3 實驗結(jié)果和分析
3.3 MWGCC-NMF算法具體介紹
3.3.1 短時傅里葉變換及其逆變換
3.3.2 非負矩陣分解
3.3.3 Mask-Weighted的廣義互相關
3.3.4 Mask-weighted GCC-NMF和系數(shù)掩蔽
3.4 實驗結(jié)果與分析
3.4.1 窗口閾值對分離性能的影響
3.4.2 字典矩陣的列數(shù)對分離性能的影響
3.4.3 估計的信噪比閾值對分離性能的影響
3.4.4 MWGCC-NMF整體性能的分析和對比
第四章 基于Logistic回歸選擇策略的GCC-NMF
4.1 基于Logistic回歸選擇策略的GCC-NMF系統(tǒng)架構(gòu)
4.2 多說話人分離的GCC-NMF
4.2.1 非線性補償?shù)膹V義互相關
4.2.2 系數(shù)掩蔽
4.3 訓練Logistic回歸模型
4.3.1 Logistic回歸
4.3.2 訓練數(shù)據(jù)
4.3.3 特征選擇
4.3.4 訓練模型
4.4 實驗結(jié)果與分析
4.4.1 仿真實驗
4.4.2 實采數(shù)據(jù)
4.5 可視化的基于麥克風陣列的語音分離系統(tǒng)
第五章 總結(jié)與展望
5.1 總結(jié)
5.2 展望
致謝
參考文獻
攻讀學位期間取得的研究成果
【參考文獻】:
期刊論文
[1]基于聽覺掩蔽效應的語音增強算法[J]. 蔡軍,李飛,張毅. 計算機工程. 2017(07)
[2]基于環(huán)形麥克風陣列的遠場語音識別系統(tǒng)[J]. 支艷利,張云偉. 微型電腦應用. 2017(04)
[3]基于正則化約束最小二乘的穩(wěn)健頻率不變波束形成器設計方法[J]. 李靜,陳華偉. 數(shù)據(jù)采集與處理. 2012(02)
[4]基于近場波束形成的麥克風陣列語音增強方法[J]. 王冬霞,殷福亮. 電子與信息學報. 2007(01)
碩士論文
[1]語音分離算法的研究與實現(xiàn)[D]. 李雅婷.西安電子科技大學 2014
[2]語音盲分離算法研究[D]. 喬永鳳.太原理工大學 2007
本文編號:3173209
本文鏈接:http://www.sikaile.net/kejilunwen/xinxigongchenglunwen/3173209.html
最近更新
教材專著