基于稀疏表示和字典學習的語音增強算法研究
發(fā)布時間:2017-04-13 21:32
本文關鍵詞:基于稀疏表示和字典學習的語音增強算法研究,由筆耕文化傳播整理發(fā)布。
【摘要】:語音是人們進行語言交流的重要信息載體,但是在現(xiàn)實環(huán)境里,語音信號往往會被各種類型的干擾和噪聲所污染。被污染的語音不僅會在主觀上使人產(chǎn)生聽覺厭惡和疲勞,而且還會嚴重影響語音信號的可懂度。語音增強的目的就是抑制和消除被污染語音中的干擾和噪聲,從而提高語音的質量和可懂度。根據(jù)污染源類型的不同,可以將語音增強分為語音分離和語音降噪問題,其中前者的污染源是干擾語音,而后者的污染源是背景噪聲。傳統(tǒng)的語音分離和語音降噪算法在一定條件下能取得比較好的性能,但是也存在一定的局限性。例如,源信號個數(shù)比混合信號多的欠定語音分離問題一直是一個難題;在語音降噪問題中,傳統(tǒng)方法對非平穩(wěn)噪聲的抑制能力往往有限。本文結合稀疏表示和字典學習理論,針對上述兩個難題開展研究,提出了若干算法用于語音分離和降噪,主要的工作和創(chuàng)新點包括: 首先,針對欠定語音分離問題,提出了基于語音雙層稀疏模型的欠定語音分離算法。該算法包含兩步,在第一步,我們首先對混合信號每個時頻點鄰域平均得到協(xié)方差矩陣,然后對該矩陣進行奇異值分解,篩選出能夠較好滿足窗聯(lián)合正交假設的時頻點進行聚類,得到較為精確的混合矩陣估計。在第二步,基于語音信號能量都集中在低頻的特性,提出了雙層稀疏模型,把語音信號分解成低頻和高頻兩層。將基于此模型訓練出的雙層字典用于語音分離,能夠降低不同源信號在字典上投影支撐集的重合度,以提高分離性能。在仿真實驗,我們將所提的混合矩陣估計算法和基于雙層稀疏模型的語音分離算法與傳統(tǒng)方法進行了比較,以驗證所提算法的有效性。 其次,針對單通道語音分離問題,提出了基于區(qū)分性字典學習和基于分層字典學習的單通道語音分離算法。傳統(tǒng)方法分別獨立地學習每個源對應的子字典,而沒有同時利用不同子字典之間的相互約束關系,從而將源信號在復合字典上進行稀疏表示的時候,其部分成分會投影在非對應子字典上,即混淆投影存在,此時字典區(qū)分性不夠,分離性能不佳。針對此問題,我們提出了區(qū)分性字典學習方法,即聯(lián)合考慮不同子字典之間的關系,使得每個源信號能夠在復合字典中的對應子字典上進行稀疏表示,而抑制其在非對應子字典上的表示。進一步,考慮到單層區(qū)分性字典學習方法在單通道語音分離中還是留有一定的混淆投影,我們又提出了分層字典學習方法,在多個層次上對字典進行約束,減少混淆投影,增加字典的區(qū)分性。為了驗證所提算法的優(yōu)越性,我們給出了仿真實驗,對比所提的區(qū)分性字典學習及分層字典學習和傳統(tǒng)方法的單通道語音分離性能。 最后,針對語音降噪問題,提出了語音和噪聲聯(lián)合字典學習方法和信號-特征字典學習方法。傳統(tǒng)方法獨立的學習一個語音字典和一個噪聲字典,再將語音和噪聲的混合信號在復合字典上進行稀疏表示來達到降噪的目的。但是這樣做會導致較為嚴重的源混淆,即部分語音成分會被噪聲字典解釋,而部分噪聲成分會被語音字典解釋。為了增加語音字典和噪聲字典的區(qū)分性和差異性,我們利用帶噪信號和干凈信號的訓練樣本,約束訓練樣本在對應字典上稀疏表示的近似誤差和字典之間的相干性,聯(lián)合訓練語音字典和噪聲字典,從而使得它們在增強階段能夠盡量減少語音和噪聲的混淆。另外,為了利用語音和噪聲信號每個時頻點及其鄰域的相關性,提出了一種基于鄰域權重信息的特征提取方法,并且通過約束信號和特征在對應的信號字典和特征字典上具有相同的稀疏表示系數(shù),來聯(lián)合學習信號字典和特征字典,然后在增強階段,直接利用信號字典估計出一路語音信號,利用特征字典生成的時頻掩碼可以估計出另一路語音信號,將這兩路語音信號進行加權,從而得到最終增強的語音。仿真實驗對比了所提的聯(lián)合字典學習和信號-特征字典學習相比于傳統(tǒng)方法對非平穩(wěn)噪聲的抑制能力。
【關鍵詞】:語音增強 語音分離 語音降噪 稀疏表示 字典學習 雙層稀疏模型 時頻掩碼 區(qū)分性字典學習 分層字典學習 聯(lián)合字典學習 信號-特征字典學習
【學位授予單位】:中國科學技術大學
【學位級別】:博士
【學位授予年份】:2015
【分類號】:TN912.3
【目錄】:
- 摘要5-7
- Abstract7-10
- 常用數(shù)學符號10-11
- 目錄11-14
- 第一章 緒論14-22
- 1.1 研究背景及意義14-16
- 1.2 國內(nèi)外發(fā)展現(xiàn)狀16-19
- 1.3 論文主要研究內(nèi)容19-20
- 1.4 論文章節(jié)安排20-22
- 第二章 稀疏表示和字典學習22-32
- 2.1 稀疏22-23
- 2.2 稀疏表示23-26
- 2.2.1 OMP25-26
- 2.2.2 BP26
- 2.2.3 LARC26
- 2.3 字典學習26-30
- 2.3.1 K-SVD27-28
- 2.3.2 近似K-SVD28-29
- 2.3.3 貪婪自適應字典29-30
- 2.4 常用的語音信號變換30-32
- 第三章 基于雙層稀疏模型的欠定語音分離算法研究32-54
- 3.1 引言32-33
- 3.2 基于時頻掩碼的語音分離算法33-37
- 3.2.1 DUET33-35
- 3.2.2 基于語音諧波特性的DUET改進算法35-36
- 3.2.3 允許信號重疊的DUET改進算法36-37
- 3.3 基于語音稀疏表示的語音分離方法37-40
- 3.4 基于SVD的混合矩陣估計算法40-41
- 3.5 基于雙層稀疏模型的語音分離算法41-45
- 3.6 對比實驗45-52
- 3.6.1 實驗準備45-48
- 3.6.2 混合矩陣估計對比試驗48-50
- 3.6.3 語音分離對比實驗50-52
- 3.7 本章小結52-54
- 第四章 基于區(qū)分性字典學習的單通道語音分離算法研究54-80
- 4.1 引言54
- 4.2 計算聽覺場景分析54-56
- 4.3 基于模型的方法56-60
- 4.3.1 基于模型的方法綜述56
- 4.3.2 基于稀疏非負矩陣分解的單通道語音分離算法56-59
- 4.3.3 基于稀疏復數(shù)矩陣分解的單通道語音分離算法59-60
- 4.4 區(qū)分性字典學習60-68
- 4.4.1 傳統(tǒng)方法的缺點60-62
- 4.4.2 區(qū)分性字典學習方法62-66
- 4.4.3 基于區(qū)分性字典學習的單通道語音分離算法66-68
- 4.5 對比實驗68-76
- 4.5.1 實驗準備68-69
- 4.5.2 收斂性、有效性驗證和參數(shù)選取討論69-72
- 4.5.3 分離性能對比72-76
- 4.6 分層字典學習76-78
- 4.6.1 單層學習與多層學習76
- 4.6.2 分層字典學習76-78
- 4.6.3 實驗仿真78
- 4.7 本章小結78-80
- 第五章 基于聯(lián)合字典學習和信號-特征字典學習的語音降噪算法研究80-98
- 5.1 引言80
- 5.2 傳統(tǒng)的語音降噪算法80-84
- 5.2.1 譜減法80-82
- 5.2.2 基于統(tǒng)計模型的方法82-83
- 5.2.3 子空間方法83-84
- 5.3 生成性字典學習84-86
- 5.4 基于聯(lián)合字典學習的語音降噪方法86-92
- 5.4.1 聯(lián)合字典學習86-89
- 5.4.2 仿真實驗89-92
- 5.5 基于特征和信號字典學習的語音降噪算法92-97
- 5.5.1 特征提取92-93
- 5.5.2 信號-特征字典學習和語音降噪算法93-96
- 5.5.3 仿真實驗96-97
- 5.6 本章小結97-98
- 第六章 總結和展望98-102
- 6.1 全文內(nèi)容總結98-99
- 6.2 研究展望99-102
- 參考文獻102-110
- 致謝110-112
- 在讀期間發(fā)表的學術論文與取得的其他研究成果11
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前3條
1 石光明;劉丹華;高大化;劉哲;林杰;王良君;;壓縮感知理論及其研究進展[J];電子學報;2009年05期
2 徐義芳,張金杰,姚開盛,曹志剛,王勇前;語音增強用于抗噪聲語音識別[J];清華大學學報(自然科學版);2001年01期
3 馬峰;張寧;戴禮榮;;基于語音信號稀疏性的FDICA初始化和后處理方法[J];數(shù)據(jù)采集與處理;2012年02期
本文關鍵詞:基于稀疏表示和字典學習的語音增強算法研究,,由筆耕文化傳播整理發(fā)布。
本文編號:304486
本文鏈接:http://www.sikaile.net/shoufeilunwen/xxkjbs/304486.html
最近更新
教材專著