基于LSTM與聚類分析的語音分離與跟蹤算法研究

發(fā)布時間：2021-08-28 04:30

　　現(xiàn)階段,語音交互技術(shù)例如語音合成、自動語音識別（automatic speech recognition,ASR）等在現(xiàn)實生活中得到廣泛的應(yīng)用,但在真實環(huán)境下伴隨著如背景噪聲、多個說話人聲及混響等相關(guān)干擾因素,降低了說話人語音的聽感和可懂度,從而影響語音交互的實際效果。而語音分離與跟蹤技術(shù),即為解決從多個說話人干擾或者其他背景噪聲中獲得高保真、高純凈的目標說話人語音信號的問題,可應(yīng)用于嘈雜環(huán)境下的會議記錄、公安刑偵監(jiān)聽以及語音身份認證等領(lǐng)域,具有廣闊的應(yīng)用前景及研究價值。本文對語音分離的理論和相關(guān)的算法進行了研究,分別針對語音分離、聲紋識別等相關(guān)算法模塊進行具體描述,就以生成對抗網(wǎng)絡(luò)改進語音的時頻掩蔽、以說話人識別為基礎(chǔ)的語音跟蹤展開深入研究。其主要工作如下:首先,介紹了基于時頻掩蔽的神經(jīng)網(wǎng)絡(luò)語音分離算法原理,闡述了采用LSTM對語音信號建模在抽取時序特征的優(yōu)勢,分析了當前監(jiān)督性語音分離中仍存在不足之處。然后采用了基于生成對抗網(wǎng)絡(luò)的語音分離方法,在語音生成階段引入一種遞歸推導(dǎo)算法和稀疏編碼改進時頻掩蔽的生成,并接入判別器分類對真、假語音信號進行判定,使得生成的信號不斷地逼近目標語音信號...

【文章來源】：廣東工業(yè)大學廣東省

【文章頁數(shù)】：84 頁

【學位級別】：碩士

【部分圖文】：

人聲與白噪聲在0dB的信噪比混合的時域波形圖

端點檢測,說話人

第二章語音分離與跟蹤基礎(chǔ)理論max( )vadvad( ) 20 log(| |)1020| | | |P w t hresh daolv dP w XX Xxx (2.而本文則簡化了傳統(tǒng)的端點檢測的方法，直接在頻域中對能量值進行檢測分析[33]，具體判別如式 2.8 所示，其中，橫坐標單位為時間 s，縱坐標為幅值 dB ，| X |表示為語音的幅度值， P ( w) 為聲壓級能量，threshold 為閾值，實驗中設(shè)為 40dB，只有當幅度譜振幅大于基于聲壓級能量閾值轉(zhuǎn)化為幅度譜后的振幅vadx 才進行保留。

二值圖,語譜圖,說話人,二值

第二章語音分離與跟蹤基礎(chǔ)理論元的二值分類，最近的研究已經(jīng)應(yīng)用這種構(gòu)想，從混合信號中計算 IBM 進而實現(xiàn)語音信號的分離，如圖 2.9 所示，圖 a 為說話人語音語譜圖，圖 b 為經(jīng)過基于頻域的端點檢測的 IBM 黑白圖，橫坐標表示時間，縱坐標在圖 b 中表示頻率，圖 b 中有效的 FFT 采樣點數(shù)為 129，若對應(yīng)時間幀上為一束白色，表示端點檢測出的靜默段以及空語言段值為 0，黑色表示同一說話人對應(yīng)的頻譜活躍區(qū)，值為 1。

本文編號：3367797

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://www.sikaile.net/kejilunwen/xinxigongchenglunwen/3367797.html

上一篇：知識輔助的雷達空時自適應(yīng)雜波/干擾抑制方法研究
下一篇：非編碼無線三維視頻傳輸技術(shù)研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于LSTM與聚類分析的語音分離與跟蹤算法研究