天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 碩博論文 > 信息類碩士論文 >

基于深度學(xué)習(xí)的小尺度單元拼接語音合成方法研究

發(fā)布時間:2018-01-02 19:31

  本文關(guān)鍵詞:基于深度學(xué)習(xí)的小尺度單元拼接語音合成方法研究 出處:《中國科學(xué)技術(shù)大學(xué)》2017年碩士論文 論文類型:學(xué)位論文


  更多相關(guān)文章: 語音合成 參數(shù)合成 單元挑選 深度神經(jīng)網(wǎng)絡(luò) 遞歸神經(jīng)網(wǎng)絡(luò)


【摘要】:語音合成技術(shù)旨在實現(xiàn)文本等輸入信息到語音波形的轉(zhuǎn)換。統(tǒng)計參數(shù)語音合成方法以及單元挑選與波形拼接方法是現(xiàn)階段實現(xiàn)語音合成的兩類主流方法。前者具有系統(tǒng)自動構(gòu)建、合成語音平滑流暢等優(yōu)點。但是受制于參數(shù)合成器等因素,其合成語音的自然度仍不夠理想。在統(tǒng)計聲學(xué)模型指導(dǎo)下使用幀級長度的小尺度單元進(jìn)行單元挑選和波形拼接,是一種改進(jìn)統(tǒng)計參數(shù)方法合成語音自然度的有效途徑。傳統(tǒng)小尺度單元挑選方法使用隱馬爾科夫模型(hidden Markov model,HMM)進(jìn)行聲學(xué)建模和代價函數(shù)計算。而近年來,以深度神經(jīng)網(wǎng)絡(luò)為代表的深度學(xué)習(xí)方法已經(jīng)在統(tǒng)計參數(shù)語音合成的聲學(xué)建模中體現(xiàn)出了相對HMM的性能優(yōu)勢。因此,本文圍繞基于深度學(xué)習(xí)的小尺度單元拼接語音合成方法開展研究工作。一方面,研究了用于指導(dǎo)小尺度單元挑選的神經(jīng)網(wǎng)絡(luò)聲學(xué)建模方法,通過使用深度神經(jīng)網(wǎng)絡(luò)與遞歸神經(jīng)網(wǎng)絡(luò)等模型結(jié)構(gòu),提升了傳統(tǒng)HMM模型的建模精度與合成語音質(zhì)量;另一方面,提出了一種結(jié)合單元挑選和參數(shù)生成的語音合成方法,利用幀拼接方法實現(xiàn)了激勵特征波形的生成,改善了傳統(tǒng)統(tǒng)計參數(shù)合成方法中對于相位等激勵信息建模能力的不足,提高了合成語音自然度。本文的研究工作具體如下:首先,本文提出了基于深度神經(jīng)網(wǎng)絡(luò)的幀拼接語音合成方法。該方法使用深度神經(jīng)網(wǎng)絡(luò)構(gòu)建聲學(xué)模型用于幀挑選中的目標(biāo)代價與連接代價的計算,相對傳統(tǒng)HMM模型提高了模型的預(yù)測精度與合成語音的主觀質(zhì)量。其次,本文研究了基于遞歸神經(jīng)網(wǎng)絡(luò)的小尺度單元挑選與波形拼接合成方法。該方法一方面采用結(jié)合長短時記憶單元的遞歸神經(jīng)網(wǎng)絡(luò)進(jìn)行聲學(xué)建模以改善深度神經(jīng)網(wǎng)絡(luò)的時序建模能力,另一方面引入多幀挑選策略以減少拼接點,取得了比基于深度神經(jīng)網(wǎng)絡(luò)的幀拼接方法更好的合成語音自然度。最后,本文設(shè)計實現(xiàn)了結(jié)合單元挑選激勵生成的參數(shù)合成方法。該方法對提取的激勵特征波形進(jìn)行參數(shù)表征和聲學(xué)建模,在合成階段使用幀拼接方法生成激勵特征波形的高頻成分,同時使用參數(shù)生成方法預(yù)測濾波器特征,最終通過濾波合成語音波形。實驗結(jié)果表明了該方法在改善統(tǒng)計參數(shù)方法合成語音自然度上的有效性。
[Abstract]:Speech synthesis technology aims to realize the conversion of input information such as text to speech waveform. Statistical parameter speech synthesis method, unit selection and waveform splicing method are two main methods to realize speech synthesis at present. System built automatically. Synthesis speech smooth and smooth and other advantages, but limited by the parameter synthesizer and other factors. The naturalness of the synthesized speech is still not ideal. Under the guidance of the statistical acoustic model, small scale units of frame length are used for unit selection and waveform stitching. It is an effective way to improve the statistical parameter method for speech naturality synthesis. Traditional small scale unit selection method uses hidden Markov model. HMMs are used for acoustic modeling and cost function calculation. The depth learning method represented by depth neural network has shown the performance advantage of HMM in the acoustic modeling of statistical parameter speech synthesis. On the one hand, the neural network acoustic modeling method used to guide the selection of small scale units is studied. By using depth neural network and recurrent neural network, the modeling accuracy and synthetic speech quality of traditional HMM model are improved. On the other hand, a speech synthesis method combining unit selection and parameter generation is proposed, and the excitation feature waveform is generated by frame splicing. Improve the traditional statistical parameter synthesis method for phase and other excitation information modeling ability, improve the synthesis speech naturalness. The research work in this paper is as follows: first. In this paper, a method of frame mosaic speech synthesis based on depth neural network is proposed, which uses depth neural network to construct acoustic model to calculate target cost and connection cost in frame selection. Compared with the traditional HMM model, the prediction accuracy of the model and the subjective quality of synthesized speech are improved. Secondly. In this paper, the method of small scale unit selection and waveform splicing synthesis based on recurrent neural network is studied. On the one hand, the acoustic modeling based on recurrent neural network combined with long and short memory unit is used to improve the depth neural network. The temporal modeling capability of. On the other hand, the multi-frame selection strategy is introduced to reduce the stitching points, and better synthetic speech naturalness is obtained than the frame stitching method based on depth neural network. Finally. In this paper, we design and implement the method of parameter synthesis based on unit selection excitation, which is used for parameter representation and acoustic modeling of the extracted excitation waveform. In the synthesis phase, frame splicing method is used to generate the high-frequency components of the excitation characteristic waveform, and the parameter generation method is used to predict the filter features. Finally, the speech waveform is synthesized by filtering. The experimental results show that the proposed method is effective in improving the speech naturalness of the statistical parameter method.
【學(xué)位授予單位】:中國科學(xué)技術(shù)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:TN912.3

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 鄭騏;情感語音合成——研究現(xiàn)狀與發(fā)展[J];寧波廣播電視大學(xué)學(xué)報;2005年03期

2 周海濤;;語音合成中多音字識別的實現(xiàn)[J];科技資訊;2008年11期

3 彭騰;孫萍;;基于C#語音合成的實現(xiàn)[J];電腦編程技巧與維護(hù);2010年12期

4 張世平;;會說四種話的語音合成卡——聲威一號[J];今日電子;1993年01期

5 趙建洋;;一種高效語音合成方法[J];電子技術(shù);1993年08期

6 馬義德,,張新國,羅長印;語音合成電路在我國的應(yīng)用前景[J];電子技術(shù);1994年12期

7 郝杰;語音合成:引領(lǐng)“耳朵經(jīng)濟(jì)”[J];中國電子商務(wù);2001年Z2期

8 羅三定,賈建華,沙莎;基于波形音頻段處理的中文語音合成研究[J];電腦與信息技術(shù);2002年01期

9 ;國內(nèi)語音合成領(lǐng)域?qū)@夹g(shù)發(fā)展趨勢[J];電子知識產(chǎn)權(quán);2003年10期

10 周潔,趙力,鄒采榮;情感語音合成的研究[J];電聲技術(shù);2005年10期

相關(guān)會議論文 前10條

1 楊靜;孫金城;;關(guān)于錄制語音合成數(shù)據(jù)庫的幾個問題[A];中國聲學(xué)學(xué)會2002年全國聲學(xué)學(xué)術(shù)會議論文集[C];2002年

2 徐俊;蔡蓮紅;吳志勇;;多語種語音合成平臺的設(shè)計與實現(xiàn)[A];第一屆建立和諧人機環(huán)境聯(lián)合學(xué)術(shù)會議(HHME2005)論文集[C];2005年

3 陳益強;高文;王兆其;楊長水;姜大龍;;多模式語音合成[A];第六屆全國人機語音通訊學(xué)術(shù)會議論文集[C];2001年

4 陶建華;董宏輝;許曉穎;;情感語音合成的關(guān)鍵技術(shù)分析[A];第六屆全國現(xiàn)代語音學(xué)學(xué)術(shù)會議論文集(下)[C];2003年

5 劉東華;馮靜;力梅;;深圳市新一代“12121”語音合成業(yè)務(wù)系統(tǒng)[A];中國氣象學(xué)會2007年年會氣象軟科學(xué)論壇分會場論文集[C];2007年

6 黃小明;熊子瑜;;基于古音系統(tǒng)的漢語方言語音合成研究[A];第十二屆全國人機語音通訊學(xué)術(shù)會議(NCMMSC'2013)論文集[C];2013年

7 鄒煜;何偉;侯敏;滕永林;朱維彬;;面向語音合成的新聞播報語音庫構(gòu)建及其特殊韻律結(jié)構(gòu)[A];中國計算機語言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年

8 賀琳;張蕊;俞舸;;大規(guī)模語音合成語料庫的錄制及常見問題[A];中國聲學(xué)學(xué)會2002年全國聲學(xué)學(xué)術(shù)會議論文集[C];2002年

9 陶建華;康永國;;基于多元激勵的高質(zhì)量語音合成聲學(xué)模型[A];第七屆全國人機語音通訊學(xué)術(shù)會議(NCMMSC7)論文集[C];2003年

10 吳志勇;蔡蓮紅;蒙美玲;;可視語音合成中基于音視頻關(guān)聯(lián)模型的視位參數(shù)優(yōu)化[A];第八屆全國人機語音通訊學(xué)術(shù)會議論文集[C];2005年

相關(guān)重要報紙文章 前10條

1 記者 桂運安;中科大11項語音合成指標(biāo)世界第一[N];安徽日報;2014年

2 本報記者 何進(jìn)偉;語音合成露崢嶸[N];網(wǎng)絡(luò)世界;2001年

3 李羚;多語種語音合成助力數(shù)字奧運[N];中國計算機報;2003年

4 清華大學(xué)計算機系人機交互與媒體集成研究所 陶建華 蔡蓮紅;語音合成的應(yīng)用系統(tǒng)設(shè)計[N];計算機世界;2001年

5 ;嵌入式語音合成平臺[N];計算機世界;2002年

6 孫曉聞;語音合成 讓機器“像人一樣說話”[N];中國勞動保障報;2005年

7 ;新型語音合成軟件面世[N];人民郵電;2008年

8 炎黃新星公司供稿;炎黃之聲SinoSonic[N];計算機世界;2002年

9 劉權(quán);語音合成融入證券客服[N];中國計算機報;2003年

10 ;語音產(chǎn)品走向開放式架構(gòu)[N];中國計算機報;2004年

相關(guān)博士學(xué)位論文 前10條

1 高瑩瑩;面向情感語音合成的言語情感建模研究[D];北京交通大學(xué);2016年

2 高裴裴;人眼驅(qū)動語音合成的若干關(guān)鍵技術(shù)研究[D];南開大學(xué);2012年

3 趙暉;真實感漢語可視語音合成關(guān)鍵技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2010年

4 蘇莊鑾;情感語音合成[D];中國科學(xué)技術(shù)大學(xué);2006年

5 盧恒;基于統(tǒng)計模型與發(fā)音錯誤檢測的語音合成方法研究[D];中國科學(xué)技術(shù)大學(xué);2011年

6 雷鳴;統(tǒng)計參數(shù)語音合成中的聲學(xué)模型建模方法研究[D];中國科學(xué)技術(shù)大學(xué);2012年

7 蔡明琦;融合發(fā)音機理的統(tǒng)計參數(shù)語音合成方法研究[D];中國科學(xué)技術(shù)大學(xué);2015年

8 凌震華;基于統(tǒng)計聲學(xué)建模的語音合成技術(shù)研究[D];中國科學(xué)技術(shù)大學(xué);2008年

9 楊辰雨;語音合成音庫自動標(biāo)注方法研究[D];中國科學(xué)技術(shù)大學(xué);2014年

10 尉洪;漢語基元音素獨立分量譜分析對比及語音合成研究[D];云南大學(xué);2011年

相關(guān)碩士學(xué)位論文 前10條

1 王澤勛;多層次韻律和短時譜同步變換的情感語音合成[D];蘇州大學(xué);2015年

2 熊林云;基于ARM Cortex-M3的語音合成軟件系統(tǒng)設(shè)計與實現(xiàn)[D];電子科技大學(xué);2014年

3 章琴;基于HMM的中文情感語音合成的研究[D];合肥工業(yè)大學(xué);2014年

4 馮歡;基于HMM的歌詞到歌聲轉(zhuǎn)換的研究[D];西北師范大學(xué);2015年

5 王海燕;漢藏雙語跨語言統(tǒng)計參數(shù)語音合成的研究[D];西北師范大學(xué);2015年

6 孫曉輝;結(jié)合聽感度量的語音合成方法研究[D];中國科學(xué)技術(shù)大學(xué);2016年

7 李翔凰;基于HMM-RBM的蒙古語語音合成研究[D];內(nèi)蒙古大學(xué);2016年

8 王雨蒙;英語文語轉(zhuǎn)換系統(tǒng)中的ToBl韻律自動標(biāo)注方法與實現(xiàn)[D];云南大學(xué);2016年

9 戈永侃;改進(jìn)語音合成自然度的研究[D];江南大學(xué);2016年

10 韓云飛;漢、維語音合成在新疆農(nóng)村信息推送系統(tǒng)中的應(yīng)用研究[D];新疆農(nóng)業(yè)大學(xué);2016年



本文編號:1370641

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/shoufeilunwen/xixikjs/1370641.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶2be42***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com