基于深度學習的信號分離若干問題研究
發(fā)布時間:2024-12-26 23:26
在現(xiàn)實環(huán)境中,人們感興趣的語音信號通常會被噪音或其他背景音所干擾,這些噪音對現(xiàn)實語音質量存在嚴重的損害,也對語音識別模型的性能存在一定考驗。為了區(qū)分真實語音中的噪音和混合的目標說話人聲音,語音分離技術是最常用的方法。近年來,得益于深度學習的發(fā)展,語音分離技術取得長足進步,但也仍然有許多難點,對于分離后的語音信號的恢復程度和純凈度仍需要不斷提升。因此,基于以上背景,本文圍繞獨立成分分析、語音視頻處理、生成對抗策略和梯度約束策略等相關技術方面對語音信號的分離任務展開研究。在論文的主體部分中,文章以深度學習方法為基礎,主要解決的問題是對混合的語音信號進行分離,得到純凈的目標語音。針對以上問題,本論文基于獨立性分析和相關性抑制的思想方法,提出了以下幾點新的應用方案:(1)本論文以語音信號作為輸入,提出了一種基于獨立性分析方法的單通道語音分離結構,以及一種基于相關性抑制方法的單通道語音分離結構。在獨立性分析方法的結構中,該結構通過分離和重采樣模塊獲得混合信號的聯(lián)合采樣和邊緣乘積采樣,使用對抗網絡的思想不斷優(yōu)化兩種采樣的相似度,從而保證分離信號之間是相互獨立的;在相關性抑制方法的結構中,該結構從最小...
【文章頁數(shù)】:86 頁
【學位級別】:碩士
【部分圖文】:
本文編號:4020784
【文章頁數(shù)】:86 頁
【學位級別】:碩士
【部分圖文】:
圖4-7視頻片段示意
第四章結合視頻的語音信號分離方法51根據(jù)論文介紹,AVSpeech的生成過程有兩步。第一步,使用Hoover等人[39]的說話人追蹤算法,在眾多的視頻中檢測出包含人類說話動作的片段,其中,說話人的臉必須是可見的,模糊、光照不足或姿勢夸張的圖像幀會被棄用,但如果一個片段的圖像幀缺失....
本文編號:4020784
本文鏈接:http://www.sikaile.net/kejilunwen/xinxigongchenglunwen/4020784.html