基于CycleGAN網(wǎng)絡(luò)實現(xiàn)非平行語料庫條件下的語音轉(zhuǎn)換
發(fā)布時間:2020-04-29 14:00
【摘要】:語音轉(zhuǎn)換技術(shù)指的是,在不改變語義信息的情況下,改變源說話人說話的個性特征,使語音聽起來像目標(biāo)說話人說得一樣。語音轉(zhuǎn)換有著較高的理論研究價值和廣泛的應(yīng)用場景。當(dāng)前語音轉(zhuǎn)換的研究大多數(shù)依賴平行語料庫,但實際中,平行語料庫往往難以獲取,特征對齊容易出錯,更是對于不同語言轉(zhuǎn)換無能為力。本文重點研究更靈活、通用的非平行數(shù)據(jù)條件下的語音轉(zhuǎn)換,主要做了如下工作:(1)對語音轉(zhuǎn)換的理論和流程進行了梳理,使用最新的WORLD語音信號的分析合成模型來做特征參數(shù)提取、語音合成工作。(2)將在非平行數(shù)據(jù)條件下的圖像風(fēng)格遷移中表現(xiàn)很好的CycleGAN網(wǎng)絡(luò)運用到語音轉(zhuǎn)換的頻譜轉(zhuǎn)換過程中,并針對性的改進了生成器網(wǎng)絡(luò)、判別器網(wǎng)絡(luò)、損失函數(shù),加入了一些實驗細節(jié)和超參數(shù),結(jié)果表明能夠?qū)崿F(xiàn)基本的語音轉(zhuǎn)換,但結(jié)果有待提升。(3)對上述網(wǎng)絡(luò)繼續(xù)做出改進,更改了網(wǎng)絡(luò)結(jié)構(gòu)以解決的判別器網(wǎng)絡(luò)訓(xùn)練困難、訓(xùn)練不穩(wěn)定等問題,加入了GLU激活函數(shù)保證了順序和分層的特性。結(jié)果顯示基于改進的CycleGAN+GLU方法已經(jīng)很接近基于平行數(shù)據(jù)條件下的GMM方法。
【學(xué)位授予單位】:大連理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:TN912.3
本文編號:2644653
【學(xué)位授予單位】:大連理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:TN912.3
【參考文獻】
相關(guān)期刊論文 前1條
1 王金明,張雄偉;話者識別系統(tǒng)中語音特征參數(shù)的研究與仿真[J];系統(tǒng)仿真學(xué)報;2003年09期
相關(guān)碩士學(xué)位論文 前4條
1 董添輝;語音轉(zhuǎn)換中聲道譜參數(shù)變換算法的研究[D];南京郵電大學(xué);2017年
2 方鵬;歌唱人轉(zhuǎn)換研究[D];中國科學(xué)技術(shù)大學(xué);2016年
3 李清華;語音轉(zhuǎn)換技術(shù)研究及實現(xiàn)[D];湖南師范大學(xué);2015年
4 周慧;基于PAD三維情緒模型的情感語音轉(zhuǎn)換與識別[D];西北師范大學(xué);2009年
,本文編號:2644653
本文鏈接:http://www.sikaile.net/kejilunwen/wltx/2644653.html
最近更新
教材專著