非平行文本條件下基于文本編碼器、VAE和ACGAN的多對多語音轉(zhuǎn)換研究
發(fā)布時間:2021-08-17 01:53
語音轉(zhuǎn)換技術是一種將源語音中的說話人個性信息轉(zhuǎn)換為目標說話人個性信息,同時保留源語義信息的技術。本文針對目前語音轉(zhuǎn)換研究領域存在的轉(zhuǎn)換后語音音質(zhì)差、說話人相似度不高的問題進行了相應的探討與改進,通過引入句嵌入和文本編碼器對VAWGAN(變分自編碼器和生成對抗網(wǎng)絡)語音轉(zhuǎn)換模型中潛在變量的過度正則化問題進行了改進,并通過引入輔助分類器生成對抗網(wǎng)絡改善了生成對抗網(wǎng)絡的結(jié)構(gòu)。本文的第一個改進點是在VAWGAN系統(tǒng)的基礎上,利用文本編碼器訓練句嵌入,將句嵌入約束添加到變分自編碼器和生成對抗網(wǎng)絡模型中,利用句嵌入中包含的語義信息,進一步提升了轉(zhuǎn)換后語音的語音自然度和個性相似度。主觀和客觀評價表明,本文提出的方法比基于VAWGAN的基準方法轉(zhuǎn)換后語音平均MCD(Mel-Cepstral Distortion,梅爾倒譜失真)值降低了4.39%,平均MOS(Mean Opinion Score,平均意見分)值提升了4.46%,平均ABX值提升了6.70%,說明本文提出的方法在提升說話人個性相似度的同時也提升了語音音質(zhì)。本文的第二個改進點是利用輔助分類器生成對抗網(wǎng)絡替代了VAWGAN模型中的Wasser...
【文章來源】:南京郵電大學江蘇省
【文章頁數(shù)】:79 頁
【學位級別】:碩士
【部分圖文】:
人體發(fā)音器官分布圖
氣流從聲門彈出形成脈沖,從而在聲門處產(chǎn)生準周期性脈沖序列氣流過聲道發(fā)出的聲音稱為濁音。當聲帶完全伸展時,來自肺部的氣流不受影響地通過果聲道的某一部分收縮形成狹窄的通道,則迫使氣流高速沖過收縮區(qū)域,并產(chǎn)生湍流道之后形成摩擦聲或清音。如果通道的某個部分完全關閉,則氣流到達此處建立壓力閉點突然打開,氣流就會迅速釋放,形成爆破音?梢钥闯,對于濁音,清音和爆們的激發(fā)源是不同的:濁音是位于聲門的準周期脈沖序列,清音是位于聲道某個收氣湍流,爆破音是位于壓力突然釋放的通道關閉處。 語音產(chǎn)生的數(shù)學模型究人員通過數(shù)字技術模擬語音信號的產(chǎn)生。語音信號是一種時變信號,然而在短時,可以做一種合理假設:語音信號為線性時不變的。通過以上合理假設,語音信號是線性時不變系統(tǒng)在隨機噪聲或準周期脈沖序列激勵下的輸出,如圖 2.2 所示。
圖 2.4 變分自編碼器原理示意圖轉(zhuǎn)換框架包含一個學習與說話者無關建指定說話人語句的解碼器(decoder)。該架的具體原理將在第三章介紹基準系統(tǒng)時用高質(zhì)量的語音分析/合成技術,例如諧波[57]、STRAIGHT(Speech Transformation ighted Spectrum)[58]、WORLD[59]等。從源說話者的語音特征,然后轉(zhuǎn)換的語音特征成模型使用廣泛,例如在歌唱合成器錯誤!未碼器[60]的語音分析,操作和合成被廣泛使
本文編號:3346821
【文章來源】:南京郵電大學江蘇省
【文章頁數(shù)】:79 頁
【學位級別】:碩士
【部分圖文】:
人體發(fā)音器官分布圖
氣流從聲門彈出形成脈沖,從而在聲門處產(chǎn)生準周期性脈沖序列氣流過聲道發(fā)出的聲音稱為濁音。當聲帶完全伸展時,來自肺部的氣流不受影響地通過果聲道的某一部分收縮形成狹窄的通道,則迫使氣流高速沖過收縮區(qū)域,并產(chǎn)生湍流道之后形成摩擦聲或清音。如果通道的某個部分完全關閉,則氣流到達此處建立壓力閉點突然打開,氣流就會迅速釋放,形成爆破音?梢钥闯,對于濁音,清音和爆們的激發(fā)源是不同的:濁音是位于聲門的準周期脈沖序列,清音是位于聲道某個收氣湍流,爆破音是位于壓力突然釋放的通道關閉處。 語音產(chǎn)生的數(shù)學模型究人員通過數(shù)字技術模擬語音信號的產(chǎn)生。語音信號是一種時變信號,然而在短時,可以做一種合理假設:語音信號為線性時不變的。通過以上合理假設,語音信號是線性時不變系統(tǒng)在隨機噪聲或準周期脈沖序列激勵下的輸出,如圖 2.2 所示。
圖 2.4 變分自編碼器原理示意圖轉(zhuǎn)換框架包含一個學習與說話者無關建指定說話人語句的解碼器(decoder)。該架的具體原理將在第三章介紹基準系統(tǒng)時用高質(zhì)量的語音分析/合成技術,例如諧波[57]、STRAIGHT(Speech Transformation ighted Spectrum)[58]、WORLD[59]等。從源說話者的語音特征,然后轉(zhuǎn)換的語音特征成模型使用廣泛,例如在歌唱合成器錯誤!未碼器[60]的語音分析,操作和合成被廣泛使
本文編號:3346821
本文鏈接:http://www.sikaile.net/kejilunwen/xinxigongchenglunwen/3346821.html
最近更新
教材專著