基于卷積神經(jīng)網(wǎng)絡(luò)的語音合成聲碼器研究

發(fā)布時(shí)間：2025-05-07 20:47

　　語音合成聲碼器從基頻、頻譜等聲學(xué)特征中重構(gòu)語音波形,是統(tǒng)計(jì)參數(shù)語音合成系統(tǒng)中不可或缺的一部分。近年來,隨著深度神經(jīng)網(wǎng)絡(luò)模型在聲學(xué)建模中的成功應(yīng)用,聲學(xué)模型精度與合成語音自然度均得到了有效改善。但是以STRAIGHT為代表的傳統(tǒng)源-濾波器結(jié)構(gòu)聲碼器仍然存在頻譜細(xì)節(jié)丟失、相位依賴人工設(shè)計(jì)以及線性濾波框架等問題,這仍然制約著統(tǒng)計(jì)參數(shù)方法合成語音質(zhì)量的進(jìn)一步提升。2016年,DeepMind研究者提出了直接對(duì)語音波形建模與生成的深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),并將其用于從文本特征預(yù)測語音波形,取得了優(yōu)于傳統(tǒng)統(tǒng)計(jì)參數(shù)方法的合成語音自然度。利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)語音波形直接建模彌補(bǔ)了頻譜細(xì)節(jié)、相位信息丟失的缺陷,深層次的神經(jīng)網(wǎng)絡(luò)也具有靈活的非線性處理能力,這為語音合成聲碼器的實(shí)現(xiàn)提供了新的途徑。本文圍繞基于卷積神經(jīng)網(wǎng)絡(luò)的語音合成聲碼器從三個(gè)方面展開研究工作。首先,設(shè)計(jì)實(shí)現(xiàn)了基于卷積神經(jīng)網(wǎng)絡(luò)的話者相關(guān)語音合成聲碼器;其次,提出了神經(jīng)網(wǎng)絡(luò)聲碼器的話者無關(guān)及自適應(yīng)訓(xùn)練方法,在目標(biāo)語音數(shù)據(jù)有限情形下實(shí)現(xiàn)高質(zhì)量聲碼器的訓(xùn)練;最后,設(shè)計(jì)實(shí)現(xiàn)了多分辨率層級(jí)化網(wǎng)絡(luò)結(jié)構(gòu),提升語音合成聲碼器的生成效率。本文整體安排如下:第一章是緒論...

【文章頁數(shù)】：64 頁

【學(xué)位級(jí)別】：碩士

【部分圖文】：

圖１．１語音合成系統(tǒng)示意圖

音合成技術(shù)絕大部分都在文語轉(zhuǎn)換層次，即將文字按照一定規(guī)則映射到語音波??形。??圖１．１展示了一個(gè)典型的語音合成系統(tǒng)。文語轉(zhuǎn)換是一個(gè)層次化的信息處理??過程，而且層次越高信息越豐富，這也是文字轉(zhuǎn)換到語音的難點(diǎn)。首先，根據(jù)給??定語言的詞典和相應(yīng)的語法規(guī)則在語言層、語法層和語義層分....

圖１．２語音生成過程

?＼規(guī)則／?＼?ｙ??圖１．１語音合成系統(tǒng)示意圖。??以劃分為三類：（１）文字按規(guī)則映射到語音波形，簡稱文語轉(zhuǎn)換（Ｔｅｘｔ－Ｔｏ－Ｓｐｅｅｃｈ，??ＴＴＳ）；⑵概念按規(guī)則映射到語音；（３）意向按規(guī)則映射到語音。現(xiàn)階段研宄的語??音合成技術(shù)絕大部分都在文語轉(zhuǎn)換層次，即將文字按照一定....

圖１．３統(tǒng)計(jì)參數(shù)語音合成系統(tǒng)

音段切分和韻律標(biāo)注）作為輸入、聲學(xué)參數(shù)作為輸出利用機(jī)器學(xué)習(xí)方法訓(xùn)練對(duì)應(yīng)??的聲學(xué)模型，最后以聲學(xué)模型為基礎(chǔ)加上后端的合成聲碼器構(gòu)成統(tǒng)計(jì)參數(shù)合成??系統(tǒng)，該系統(tǒng)結(jié)構(gòu)如圖１．３所示。??／?輸入?７??／…亥本．．．／??Ｔ??前端??文本［處理丨??音段切分、韻??ｖ?律等文本特征....

圖１．４基于ＤＮＮ的聲學(xué)模型結(jié)構(gòu)

合成任務(wù)的聲學(xué)建模模ｔ４］，實(shí)驗(yàn)表明其聲學(xué)模型精度與合成語音自然度相對(duì)于??基于ＨＭＭ的統(tǒng)計(jì)參數(shù)建模方法均得到了有效改善。ＤＮＮ是一種前饋神經(jīng)網(wǎng)絡(luò)??（Ｆｅｅｄｆｏｒｗａｒｄ?Ｎｅｕｒａｌ?Ｎｅｔｗｏｒｋ），基于ＤＮＮ的聲學(xué)模型如圖１．４所不，這種層級(jí)化??結(jié)構(gòu)和人類的發(fā)音過程有....

本文編號(hào)：4043775

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/4043775.html

上一篇：基于深度學(xué)習(xí)的中文唇語識(shí)別研究
下一篇：群智能優(yōu)化算法及在流水車間調(diào)度問題中的應(yīng)用研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于卷積神經(jīng)網(wǎng)絡(luò)的語音合成聲碼器研究