基于計算聽覺場景分析的單信道語言分離
本文選題:盲源分離 + 單信道語音分離 ; 參考:《北京交通大學》2014年博士論文
【摘要】:摘要:單信道語音分離(Single-channel speech separation, SCSS)指在無法預知聲源先驗信息的情況下,僅根據(jù)觀測到的單路混合信號恢復原聲源的過程。計算聽覺場景分析(Computational auditory scene analysis, CASA)是解決該問題的一種新方法。它通過尋找語音中感知相關的區(qū)分性特征實現(xiàn)語音分離,并避免了對噪聲特性的過多假設。 當前,CASA的研究主要集中于兩個方向:1)數(shù)據(jù)驅(qū)動型CASA;2)基于模型的CASA。前者主要對應于生物快速的、本能的條件反射;而后者主要針對相對緩慢的、高層的推理過程。在應對復雜聲場景時,生物所具備的迅速反應能力預示著聲源分離的工作很大程度是在底層完成的。有鑒于此,本文對數(shù)據(jù)驅(qū)動型CASA進行了較為深入的研究,其中主要的工作和貢獻如下: 1.針對短時幅度調(diào)制譜(Amplitude modulation spectrum, AMS)分辨率低的特點,提出了一種重分配(reassignment)策略的雙話者(Co-channel)語音分離算法。該算法通過可變截止頻率的低通濾波器抽取出依子帶變化的幅度調(diào)制信號(Amplitude Modulation, AM);接著,將抽取出的AM信號譜(spectrum)上的每一能量點重新放置,有效實現(xiàn)了信號成分的會聚,并緩解了時間分辨率和頻率分辨率的矛盾。實驗結果表明,基于重分配AMS的語音分離方法具有明顯改善的性能。 2.受Schroeder直方圖、Goldstein聽覺感知理論以及Meddis'‘相關圖”(Correlo-gram)的啟發(fā),提出了一種基于“高斯圖”(Gaussgram)的多基音(multi-pitch)檢測算法。“高斯圖”通過采用可變帶寬的高斯函數(shù)修正“相關圖”得到,具有抑制次諧波(sub-harmonics)的特點。將其用于檢測基音,單幀基音檢測的半頻錯誤明顯減少。另一方面,該方法采用檢測得到的主基音軌跡消除其次諧波軌跡,進一步抑制了半頻錯誤。系統(tǒng)評估表明,提出的多基音檢測算法具有更少的倍/半頻錯誤。 3.提出了一種多層感知器的量化門限自適應新方法,從而給出一種改進的多層感知器(Multi-layer perceptron,MLP)。將該MLP嵌入CASA計算框架,可以提高系統(tǒng)在訓練和測試信噪比(Signal-to-noise ratio, SNR)不匹配條件下的魯棒性,減少性能的下滑。對比實驗表明,該方法可以改善分離系統(tǒng)在不同SNR下的性能。
[Abstract]:Absrtact: Single-channel speech separation (SCSs) refers to the process of recovering the original sound source only according to the observed single-channel mixed signal when the prior information of the sound source cannot be predicted. Computational auditory scene analysis, analysis is a new method to solve this problem. It realizes speech separation by looking for perceptual related distinguishing features in speech and avoids too many assumptions about noise characteristics. The current research on CASA is mainly focused on two directions: 1) Data-driven CASASA2) Model-based CASAA. The former mainly corresponds to the biological quick, instinctive conditioned reflex, while the latter is mainly aimed at the relatively slow, high-level reasoning process. When dealing with complex sound scenes, the rapid response ability of organisms indicates that the separation of sound sources is largely done at the bottom. In this paper, the data driven CASA is studied in depth. The main work and contributions are as follows: 1. Aiming at the low resolution of short time amplitude Modulation Spectral (Amplitude modulation spectrum, AMS), a Co-channel speech separation algorithm based on reallocation of (reassignment) strategy is proposed. In this algorithm, the Amplitude modulation (AM) signal is extracted by low-pass filter with variable cutoff frequency, and then every energy point on the extracted AM signal spectrum (spectrum) is repositioned to realize the convergence of the signal components. The contradiction between time resolution and frequency resolution is alleviated. The experimental results show that the speech separation method based on rescheduled AMS has significantly improved performance. 2. Inspired by the Schroeder histogram Goldstein auditory perception theory and the Correlo-gram, a multi-pitch detection algorithm based on Gao Si graph is proposed. The "Gao Si diagram" is obtained by modifying the "correlation diagram" by using the Gao Si function with variable bandwidth, which is characterized by subharmonic suppression (sub-harmonics). When used to detect pitch, the half-frequency error of single-frame pitch detection is obviously reduced. On the other hand, the detected principal pitch track is used to eliminate the second harmonic track and further suppress the half-frequency error. The system evaluation shows that the proposed multi-pitch detection algorithm has less multiple / half frequency errors. A new quantization threshold adaptive method for multilayer perceptron is proposed, and an improved multi-layer perceptron (MLP) is presented. By embedding the MLP into CASA framework, the robustness of the system can be improved under the condition of signal to noise ratio (SNR) mismatch, and the performance decline can be reduced. The experimental results show that the proposed method can improve the performance of the separation system under different SNR conditions.
【學位授予單位】:北京交通大學
【學位級別】:博士
【學位授予年份】:2014
【分類號】:TN912.3
【共引文獻】
相關期刊論文 前10條
1 孫升陽;沈新玉;胡柯;戴小華;孫建華;;基于粒子群算法的單機架冷軋硅鋼負荷分配的優(yōu)化方法[J];安徽冶金;2010年01期
2 張四方;;兼顧板形的單機架UCM冷軋機負荷分配的優(yōu)化方法[J];安徽冶金;2010年04期
3 張清華;周玉蘭;滕海濤;;基于粒計算的認知模型[J];重慶郵電大學學報(自然科學版);2009年04期
4 陳思;;BP神經(jīng)網(wǎng)絡學習率參數(shù)改進方法[J];長春師范學院學報(自然科學版);2010年02期
5 高紅;;BP神經(jīng)網(wǎng)絡學習率的優(yōu)化方法[J];長春師范學院學報(自然科學版);2010年04期
6 陳思;;一種BP神經(jīng)網(wǎng)絡學習率的改進方法[J];長春師范學院學報(自然科學版);2010年08期
7 劉芳;姚東泳;侯璇;錢海忠;;在線地圖的空間認知研究[J];測繪科學;2009年05期
8 段曉東;劉霞;馬艷準;閆帥;;基于群智能的信息認知機制研究[J];大連民族學院學報;2011年05期
9 葉炳煜;;計算機會不會有情感?[J];電腦知識與技術;2009年02期
10 陳虹;湯明月;簡易;;智能性網(wǎng)絡故障診斷[J];福建電腦;2010年04期
相關會議論文 前7條
1 吳強;王煦法;;“數(shù)字水利”及其關鍵技術[A];2005年“數(shù)字安徽”博士科技論壇論文集[C];2005年
2 秦昆;孔令橋;許凱;;智能空間信息處理課程體系研究[A];2009`中國地理信息產(chǎn)業(yè)論壇暨第二屆教育論壇就業(yè)洽談會論文集[C];2009年
3 劉幺和;陳睿;彭偉;周蕾;;一種BP神經(jīng)網(wǎng)絡學習率的優(yōu)化設計[A];湖北省機械工程學會機械設計與傳動專業(yè)委員會第十五屆學術年會論文集(一)[C];2007年
4 張育銘;;思維內(nèi)涵之辨析[A];《思維科學與21世紀》學術研討會論文集[C];2010年
5 孫升陽;沈新玉;胡柯;戴小華;孫建華;;基于粒子群算法的單機架冷軋硅鋼負荷分配優(yōu)化[A];2009年全國冷軋板帶生產(chǎn)技術交流會論文集[C];2009年
6 劉艷驕;;思維科學研究方法概說[A];首屆中醫(yī)思維科學學術研討會文集[C];2008年
7 胡旭琰;鄒月嫻;王文敏;;一種基于MDT特征補償?shù)脑肼曯敯粽Z音識別算法[A];第十二屆全國人機語音通訊學術會議(NCMMSC'2013)論文集[C];2013年
相關博士學位論文 前10條
1 王作為;具有認知能力的智能機器人行為學習方法研究[D];哈爾濱工程大學;2010年
2 勾軼;基于免疫算法和多傳感器信息融合的電機故障綜合診斷方法研究[D];沈陽工業(yè)大學;2010年
3 魏龍生;視覺信息處理中注意機制計算模型研究[D];華中科技大學;2011年
4 石振國;資源網(wǎng)絡的精化學習及應用研究[D];上海大學;2011年
5 任新意;1420冷連軋機板形板厚控制數(shù)理建模與仿真[D];燕山大學;2012年
6 馮銳;基于案例推理的經(jīng)驗學習研究[D];華東師范大學;2011年
7 黃秀軒;混疊語音的計算聽覺場景分析研究[D];華南理工大學;2004年
8 章熙春;翹曲離散傅立葉變換算法與語音處理新方法研究[D];華南理工大學;2005年
9 方小玲;基于非線性與復雜網(wǎng)絡方法的腦和血流動力學研究[D];上海交通大學;2007年
10 陳劍濤;認知的自然起源與演化研究[D];華中師范大學;2008年
,本文編號:2057573
本文鏈接:http://www.sikaile.net/kejilunwen/wltx/2057573.html