天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 信息工程論文 >

基于LSTM與聚類分析的語音分離與跟蹤算法研究

發(fā)布時間:2021-08-28 04:30
  現(xiàn)階段,語音交互技術(shù)例如語音合成、自動語音識別(automatic speech recognition,ASR)等在現(xiàn)實生活中得到廣泛的應(yīng)用,但在真實環(huán)境下伴隨著如背景噪聲、多個說話人聲及混響等相關(guān)干擾因素,降低了說話人語音的聽感和可懂度,從而影響語音交互的實際效果。而語音分離與跟蹤技術(shù),即為解決從多個說話人干擾或者其他背景噪聲中獲得高保真、高純凈的目標說話人語音信號的問題,可應(yīng)用于嘈雜環(huán)境下的會議記錄、公安刑偵監(jiān)聽以及語音身份認證等領(lǐng)域,具有廣闊的應(yīng)用前景及研究價值。本文對語音分離的理論和相關(guān)的算法進行了研究,分別針對語音分離、聲紋識別等相關(guān)算法模塊進行具體描述,就以生成對抗網(wǎng)絡(luò)改進語音的時頻掩蔽、以說話人識別為基礎(chǔ)的語音跟蹤展開深入研究。其主要工作如下:首先,介紹了基于時頻掩蔽的神經(jīng)網(wǎng)絡(luò)語音分離算法原理,闡述了采用LSTM對語音信號建模在抽取時序特征的優(yōu)勢,分析了當前監(jiān)督性語音分離中仍存在不足之處。然后采用了基于生成對抗網(wǎng)絡(luò)的語音分離方法,在語音生成階段引入一種遞歸推導(dǎo)算法和稀疏編碼改進時頻掩蔽的生成,并接入判別器分類對真、假語音信號進行判定,使得生成的信號不斷地逼近目標語音信號... 

【文章來源】:廣東工業(yè)大學廣東省

【文章頁數(shù)】:84 頁

【學位級別】:碩士

【部分圖文】:

基于LSTM與聚類分析的語音分離與跟蹤算法研究


人聲與白噪聲在0dB的信噪比混合的時域波形圖

端點檢測,說話人


第二章 語音分離與跟蹤基礎(chǔ)理論max( )vadvad( ) 20 log(| |)1020| | | |P w t hresh daolv dP w XX Xxx (2.而本文則簡化了傳統(tǒng)的端點檢測的方法,直接在頻域中對能量值進行檢測分析[33],具體判別如式 2.8 所示,其中,橫坐標單位為時間 s,縱坐標為幅值 dB ,| X |表示為語音的幅度值, P ( w) 為聲壓級能量,threshold 為閾值,實驗中設(shè)為 40dB,只有當幅度譜振幅大于基于聲壓級能量閾值轉(zhuǎn)化為幅度譜后的振幅vadx 才進行保留。

二值圖,語譜圖,說話人,二值


第二章 語音分離與跟蹤基礎(chǔ)理論元的二值分類,最近的研究已經(jīng)應(yīng)用這種構(gòu)想,從混合信號中計算 IBM 進而實現(xiàn)語音信號的分離,如圖 2.9 所示,圖 a 為說話人語音語譜圖,圖 b 為經(jīng)過基于頻域的端點檢測的 IBM 黑白圖,橫坐標表示時間,縱坐標在圖 b 中表示頻率,圖 b 中有效的 FFT 采樣點數(shù)為 129,若對應(yīng)時間幀上為一束白色,表示端點檢測出的靜默段以及空語言段值為 0,黑色表示同一說話人對應(yīng)的頻譜活躍區(qū),值為 1。


本文編號:3367797

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/xinxigongchenglunwen/3367797.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶81c8d***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com