天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 自動(dòng)化論文 >

基于卷積神經(jīng)網(wǎng)絡(luò)的語音合成聲碼器研究

發(fā)布時(shí)間:2025-05-07 20:47
  語音合成聲碼器從基頻、頻譜等聲學(xué)特征中重構(gòu)語音波形,是統(tǒng)計(jì)參數(shù)語音合成系統(tǒng)中不可或缺的一部分。近年來,隨著深度神經(jīng)網(wǎng)絡(luò)模型在聲學(xué)建模中的成功應(yīng)用,聲學(xué)模型精度與合成語音自然度均得到了有效改善。但是以STRAIGHT為代表的傳統(tǒng)源-濾波器結(jié)構(gòu)聲碼器仍然存在頻譜細(xì)節(jié)丟失、相位依賴人工設(shè)計(jì)以及線性濾波框架等問題,這仍然制約著統(tǒng)計(jì)參數(shù)方法合成語音質(zhì)量的進(jìn)一步提升。2016年,DeepMind研究者提出了直接對(duì)語音波形建模與生成的深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),并將其用于從文本特征預(yù)測語音波形,取得了優(yōu)于傳統(tǒng)統(tǒng)計(jì)參數(shù)方法的合成語音自然度。利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)語音波形直接建模彌補(bǔ)了頻譜細(xì)節(jié)、相位信息丟失的缺陷,深層次的神經(jīng)網(wǎng)絡(luò)也具有靈活的非線性處理能力,這為語音合成聲碼器的實(shí)現(xiàn)提供了新的途徑。本文圍繞基于卷積神經(jīng)網(wǎng)絡(luò)的語音合成聲碼器從三個(gè)方面展開研究工作。首先,設(shè)計(jì)實(shí)現(xiàn)了基于卷積神經(jīng)網(wǎng)絡(luò)的話者相關(guān)語音合成聲碼器;其次,提出了神經(jīng)網(wǎng)絡(luò)聲碼器的話者無關(guān)及自適應(yīng)訓(xùn)練方法,在目標(biāo)語音數(shù)據(jù)有限情形下實(shí)現(xiàn)高質(zhì)量聲碼器的訓(xùn)練;最后,設(shè)計(jì)實(shí)現(xiàn)了多分辨率層級(jí)化網(wǎng)絡(luò)結(jié)構(gòu),提升語音合成聲碼器的生成效率。本文整體安排如下:第一章是緒論...

【文章頁數(shù)】:64 頁

【學(xué)位級(jí)別】:碩士

【部分圖文】:

圖1.1語音合成系統(tǒng)示意圖

圖1.1語音合成系統(tǒng)示意圖

音合成技術(shù)絕大部分都在文語轉(zhuǎn)換層次,即將文字按照一定規(guī)則映射到語音波??形。??圖1.1展示了一個(gè)典型的語音合成系統(tǒng)。文語轉(zhuǎn)換是一個(gè)層次化的信息處理??過程,而且層次越高信息越豐富,這也是文字轉(zhuǎn)換到語音的難點(diǎn)。首先,根據(jù)給??定語言的詞典和相應(yīng)的語法規(guī)則在語言層、語法層和語義層分....


圖1.2語音生成過程

圖1.2語音生成過程

?\規(guī)則/?\?y??圖1.1語音合成系統(tǒng)示意圖。??以劃分為三類:(1)文字按規(guī)則映射到語音波形,簡稱文語轉(zhuǎn)換(Text-To-Speech,??TTS);⑵概念按規(guī)則映射到語音;(3)意向按規(guī)則映射到語音。現(xiàn)階段研宄的語??音合成技術(shù)絕大部分都在文語轉(zhuǎn)換層次,即將文字按照一定....


圖1.3統(tǒng)計(jì)參數(shù)語音合成系統(tǒng)

圖1.3統(tǒng)計(jì)參數(shù)語音合成系統(tǒng)

音段切分和韻律標(biāo)注)作為輸入、聲學(xué)參數(shù)作為輸出利用機(jī)器學(xué)習(xí)方法訓(xùn)練對(duì)應(yīng)??的聲學(xué)模型,最后以聲學(xué)模型為基礎(chǔ)加上后端的合成聲碼器構(gòu)成統(tǒng)計(jì)參數(shù)合成??系統(tǒng),該系統(tǒng)結(jié)構(gòu)如圖1.3所示。??/?輸入?7??/…亥本.../??T??前端??文本[處理丨??音段切分、韻??v?律等文本特征....


圖1.4基于DNN的聲學(xué)模型結(jié)構(gòu)

圖1.4基于DNN的聲學(xué)模型結(jié)構(gòu)

合成任務(wù)的聲學(xué)建模模t4],實(shí)驗(yàn)表明其聲學(xué)模型精度與合成語音自然度相對(duì)于??基于HMM的統(tǒng)計(jì)參數(shù)建模方法均得到了有效改善。DNN是一種前饋神經(jīng)網(wǎng)絡(luò)??(Feedforward?Neural?Network),基于DNN的聲學(xué)模型如圖1.4所不,這種層級(jí)化??結(jié)構(gòu)和人類的發(fā)音過程有....



本文編號(hào):4043775

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/4043775.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶82d62***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com