天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 信息工程論文 >

基于自回歸深度神經網絡的單通道語音分離方法研究

發(fā)布時間:2020-06-12 16:59
【摘要】:語音分離是語音信號處理領域目前仍具挑戰(zhàn)性的重要研究問題之一。在現今計算機和互聯(lián)網技術得到極大發(fā)展的時代,語音分離技術在語音通話和人機語音交互的應用場景中有著重要的意義,直接影響在復雜的聲學環(huán)境中的使用體驗。自20世紀50年代以來,研究者們便已開始研究單通道的語音分離方法,并在深度學習方法出現之前,提出了基于信號處理和統(tǒng)計建模的方法、聽覺場景分析、非負矩陣分解和隱馬爾可夫模型等傳統(tǒng)的單通道語音分離方法。然而,由于各種不合理的假設或人工設計的啟發(fā)式規(guī)則等缺點,這些方法的分離性能受到了局限。而基于深度學習的單通道語音分離方法則不需要這些假設和規(guī)則,相反可以利用其強大的神經網絡和龐大的數據量對混合語音和目標語音之間的復雜依賴關系進行建模與學習,從而獲得優(yōu)于傳統(tǒng)方法的分離性能。最近,隨著最新的基于深度學習的深度聚類和排列不變訓練的提出,對于傳統(tǒng)的基于深度學習方法非常困難的標簽排列問題也得到了較好的解決。盡管上述基于深度學習的方法相比傳統(tǒng)方法獲得了明顯的分離性能提升,但是仍然有一些缺點。第一個主要缺點是所使用的網絡結構通常尚未充分利用混合語音、目標語音和干擾信號之間的時序上下文信息與依賴關系,并且時序記憶能力有限;第二是通常使用的訓練準則,即最小均方誤差準則會帶來頻域過平滑問題;第三是最新的深度聚類和排列不變訓練的方法通常使用非因果的網絡結構以達到最佳的分離性能,因此時延較大,無法應用于在線分離的場景,而因果的網絡結構相比非因果的結構有明顯的分離性能差距。因此,針對以上幾點,本論文在主流的基于深度學習的單通道語音分離方法的基礎上,研究新的解決思路,關注于語音分離的兩個子任務,語音增強任務和說話人無關的多說話人語音分離任務,提出了一種基于自回歸深度神經網絡的單通道語音分離/增強方法。首先,針對主流的基于回歸深層神經網絡的方法在語音增強任務中,尚未充分利用混合語音和目標語音之間時序上下文信息與依賴關系的缺點,以及使用最小化均方誤差準則帶來的頻域過平滑現象的缺點,本論文提出了一種基于自回歸深度神經網絡的語音增強方法。通過本論文提出的神經網絡,該方法可以對各信號的相互關系進行有效地建模,并且采用了一種結合對抗訓練和本論文提出的多步預測訓練的模型訓練方案,在緩解了訓練階段和增強階段不匹配的同時,提升了語音增強性能并緩解了頻域過平滑問題。其次,針對主流的基于回歸深層神經網絡的方法在說話人無關多說話人語音分離任務中遇到的標簽排列問題,以及深度聚類和排列不變訓練的方法在在線分離條件下有應用局限等缺點,從人類聽覺感知機制和聽覺場景分析的研究成果出發(fā),本論文提出了一種基于自回歸深度神經網絡的說話人無關多說話人在線語音分離方法。通過本論文提出的傾聽階段和組合階段的神經網絡,該方法可以充分利用混合語音和所有聲源信號的時序上下文與相互依賴關系,以一種新的思路解決了標簽排列問題,并且在在線語音分離的條件下獲得了目前最好的分離性能。最后,本論文在前兩個研究成果的基礎上進行擴展與改進。通過對語音分離任務做進一步分析,針對目前主流的基于短時傅立葉變換的方法中使用幅度信息但未充分利用相位信息,以及目前最新方法未關注長時說話人信息的缺點,本論文提出了結合波形域端到端建模的波形稀疏編碼方法和說話人信息輔助訓練的方法以充分利用波形中相位信息,同時提取和記憶長時說話人信息。利用進一步改進的網絡結構,該方法最終獲得了相比上述提出的方法更好的分離性能。
【圖文】:

語譜圖,說話人,非語音,目標語


由目標語音和干擾信號在空氣中的疊加產生,并由麥克風等錄音設備采集,最后逡逑轉換為數字信號進行存儲和處理。其中干擾信號是指不屬于目標說話人的信號,逡逑包括非語音背景噪聲、回聲混響以及其他說話人的語音等類型。圖1.1展示了在逡逑1逡逑

濾波器組,聽覺神經,混合語


圖2.3邋—個gammatone濾波器組的時域和頻域展示(Wang邋et邋aL,邋2006)逡逑圖(A)為ganimatone濾波器組的時域展示,圖(B)為對應的頻域展示。逡逑圖2.3展示了一組gammatone濾波器的單位沖激響應和頻率響應?梢钥闯鲥义显诘皖l部分,濾波器有較窄的帶寬,并且從頻域觀察濾波器之間也靠的更近。獲逡逑得gammatone濾波器輸出后,CASA系統(tǒng)通常會結合Meddis提出的聽毛細胞的逡逑傳導模型(Meddis,1986,邋1988;Meddisetal.,1990)計算聽覺神經中發(fā)射率的表示,逡逑以此模擬人類聽覺系統(tǒng)中耳蝸基底膜和聽覺神經的工作過程。對每個頻域的輸逡逑出信號分別做分幀處理后,最終獲得混合語音信號的聽覺神經活動表達,即耳蝸逡逑圖(cochleagram)。逡逑通過聽覺外圍分析得到混合語音信號的時頻域表達后,可以提取自相關圖逡逑(correlogram)邋(Slaneyetal.,,1990)和互相關圖(cross-correlogram)邋(Lyon,1983)等逡逑聲學特征。自相關圖的計算基于音高(pitch)感知的自相關理論,通過對模擬的逡逑聽覺神經活動輸出進行自相關計算。根據耳蝸濾波器的輸出
【學位授予單位】:中國科學技術大學
【學位級別】:博士
【學位授予年份】:2019
【分類號】:TN912.3

【相似文獻】

相關期刊論文 前10條

1 徐方鑫;;瑞米茲交替算法在語音分離上的應用[J];電腦知識與技術;2012年03期

2 楊海濱;張軍;;基于模型的單通道語音分離綜述[J];計算機應用研究;2010年11期

3 施劍;杜利民;;基于麥克陣列的實時盲語音分離系統(tǒng)[J];微計算機應用;2008年05期

4 王光艷;張艷;李sチ

本文編號:2709835


資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/xinxigongchenglunwen/2709835.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶05f3d***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com