非平行文本條件下基于i-vector、VAE和GAN的多對多語音轉(zhuǎn)換算法研究
發(fā)布時間:2024-03-10 15:02
語音轉(zhuǎn)換是一種將源語音中的說話人身份轉(zhuǎn)換為目標說話人身份,同時保留源語音語義信息的技術(shù)。作為一門交叉性較強的學(xué)科,語音轉(zhuǎn)換技術(shù)目前已經(jīng)在文語轉(zhuǎn)換、通信保密、多媒體應(yīng)用、醫(yī)療輔助和語言翻譯等方面得到了重要應(yīng)用,并且在其他領(lǐng)域展現(xiàn)出了廣泛的應(yīng)用前景。目前語音轉(zhuǎn)換模型主要存在兩個問題:一方面是轉(zhuǎn)換后語音的個性相似度不高,另一方面則是轉(zhuǎn)換后語音的音質(zhì)不夠理想。本文重點研究了基于變分自編碼器和生成對抗網(wǎng)絡(luò)的語音轉(zhuǎn)換模型,并且針對上述兩個問題進行了相應(yīng)的探討與改進。首先,為了實現(xiàn)更好的說話人個性相似度的語音轉(zhuǎn)換,本文將身份向量i-vector應(yīng)用在基于變分自編碼器和生成對抗網(wǎng)絡(luò)的語音轉(zhuǎn)換模型中,利用i-vector可以表征說話人個性特征的特性提升了轉(zhuǎn)換后語音的個性相似度。經(jīng)主觀和客觀評價表明,本文提出的方法比基于變分自編碼器和生成對抗網(wǎng)絡(luò)的方法轉(zhuǎn)換后的語音的平均MCD值降低了3.22%,平均MOS值提升了2.63%,平均ABX值提升了7.35%,說明本文提出的方法在提升說話人個性相似度的同時也改善了語音音質(zhì)。其次,為了實現(xiàn)更好音質(zhì)的語音轉(zhuǎn)換,本文利用生成性能更好的相對生成對抗網(wǎng)絡(luò)改進了基于變分自編...
【文章頁數(shù)】:73 頁
【學(xué)位級別】:碩士
【部分圖文】:
本文編號:3924975
【文章頁數(shù)】:73 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2.1發(fā)聲器官分區(qū)示意圖
信號模型又是以發(fā)聲系統(tǒng)的聲學(xué)原理為基礎(chǔ)而建立首先要對發(fā)聲系統(tǒng)有一定的了解。本章主要介紹了析了語音轉(zhuǎn)換的基本原理、語音信號的頻譜轉(zhuǎn)換和價標準。生機制的生理機制動產(chǎn)生的聲波,其最低頻率為50Hz,最高頻率為帶產(chǎn)生聲波,經(jīng)聲道發(fā)生共鳴,再經(jīng)口唇輻射,從音,這就是語音。該過程由肺、氣管....
圖3.1VAE模型結(jié)構(gòu)原理圖
圖3.1VAE模型結(jié)構(gòu)原理圖去逼近真實的后驗概率上,KL散度常用來求兩個分布間,為了使與的K:(|)(|)))[log(|)log(|)=[log(|)log(|)qzxqzxEqzxpzxEqz....
圖4.6SF3-TM1轉(zhuǎn)換情形下不同系統(tǒng)轉(zhuǎn)換語音的語譜圖
換語音與源語音、目標語音的語譜圖對比。從圖4.6可以看出,VAWGAN模型AWGAN+i-vector模型的語譜圖和源語音的語譜圖差別較大,VAWGAN+i-vector模型的轉(zhuǎn)音的語譜圖比VAWGAN模型的轉(zhuǎn)換語音的語譜圖更接近目標語音的語譜圖,說AWGAN+i-....
本文編號:3924975
本文鏈接:http://www.sikaile.net/kejilunwen/xinxigongchenglunwen/3924975.html
最近更新
教材專著