英語文語轉(zhuǎn)換系統(tǒng)中的ToBl韻律自動標(biāo)注方法與實現(xiàn)
本文關(guān)鍵詞:英語文語轉(zhuǎn)換系統(tǒng)中的ToBl韻律自動標(biāo)注方法與實現(xiàn),,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著互聯(lián)網(wǎng)浪潮的洶涌之勢撲面而來,語音合成技術(shù)也趁著站在風(fēng)口的機(jī)會實現(xiàn)了快速的成長。作為人工智能的一部分,語音合成技術(shù)的未來方向必然是讓機(jī)器語音合成效果達(dá)到人類的說話水平。那么作為語音合成中關(guān)鍵的一項技術(shù),即韻律的表達(dá)效果也會越來越被重視。論文將就ToBI韻律自動標(biāo)注展開討論和研究,并展示加載了自動標(biāo)注后的英文TTS效果。論文的具體工作如下:首先,論文將對語音合成技術(shù)的背景以及歷史發(fā)展進(jìn)行闡述,然后分別介紹各種語音合成方法,其中包括目前最主流的兩種合成方式,即基于HMM模型的參數(shù)合成以及基于大語料庫的拼接合成。論文在第二章對于韻律標(biāo)注的體系ToBI進(jìn)行詳細(xì)介紹。因為之后的預(yù)測正確率和合成效果均是建立在對ToBI韻律標(biāo)注體系進(jìn)行預(yù)測的基礎(chǔ)上的。其次,論文會著重描述C4.5預(yù)測樹算法、最大熵算法和條件隨機(jī)場算法,并在具體的實現(xiàn)過程中,介紹這幾種模型訓(xùn)練和測試方法。通過對不同韻律模型的分析對比,我們可以用不同的模型來對韻律進(jìn)行自動標(biāo)注,并加載進(jìn)入英文的TTS。最后,論文將分別測試出幾個不同模型的預(yù)測效果,通過不同的測試方式我們可以得到一個直接的數(shù)據(jù)結(jié)果。結(jié)果顯示,論文所使用的C4.5決策樹和CRF模型能夠有效對ToBI韻律體系進(jìn)行預(yù)測標(biāo)注。當(dāng)加入韻律預(yù)測模型后,我們對英文TTS系統(tǒng)合成的聲音做了一個主觀MOS測聽實驗,相比于之前的MOS得分,新的句子提升0.31,在韻律上有一個明顯的提升。這進(jìn)一步地論證論文中采取的實驗思路和方法具備一定的可靠性。此外,論文對實驗結(jié)果進(jìn)行總結(jié),提出在ToBI自動標(biāo)注上仍待優(yōu)化的幾個部分,并對語音合成在ToBI韻律預(yù)測上的一些展望和建議。
【關(guān)鍵詞】:語音合成 ToBI韻律標(biāo)注 C4.5決策樹 CRF模型 韻律預(yù)測
【學(xué)位授予單位】:云南大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TN912.33
【目錄】:
- 摘要3-4
- Abstract4-8
- 第一章 緒論8-18
- 1.1 語音合成概述9-11
- 1.1.1 什么是語音合成9-10
- 1.1.2 語音合成發(fā)展歷程10-11
- 1.2 語音產(chǎn)生機(jī)理11-13
- 1.3 語音合成方法13-16
- 1.3.1 物理機(jī)理的語音合成13
- 1.3.2 源-濾波器的語音合成13-14
- 1.3.3 基于波形拼接的語音合成14-15
- 1.3.4 基于HMM模型的參數(shù)語音合成15-16
- 1.4 論文研究思路以及主要工作16
- 1.5 論文的組織結(jié)構(gòu)16-18
- 第二章 ToBI韻律標(biāo)注體系18-30
- 2.1 概述18-21
- 2.2 標(biāo)注方法21-26
- 2.2.1 拼寫標(biāo)注21
- 2.2.2 層次標(biāo)注21-23
- 2.2.3 音調(diào)標(biāo)注23-26
- 2.2.4 注釋標(biāo)注26
- 2.2.5 基頻最高點HIFO的標(biāo)注26
- 2.3 標(biāo)注舉例26-28
- 2.4 本章小結(jié)28-30
- 第三章 韻律的自動標(biāo)注和預(yù)測30-42
- 3.1 機(jī)器學(xué)習(xí)30-31
- 3.2 基于決策樹的韻律標(biāo)注31-35
- 3.2.1 基于ID3決策樹的韻律標(biāo)注31
- 3.2.2 基于C4.5決策樹的韻律標(biāo)注31-34
- 3.2.3 ID3算法與C4.5算法的比較34-35
- 3.3 基于ME模型的邊界信息和語調(diào)預(yù)測35-38
- 3.4 基于CRF的韻律預(yù)測38-41
- 3.5 本章小結(jié)41-42
- 第四章 ToBI韻律預(yù)測的實現(xiàn)42-54
- 4.1 語料庫數(shù)據(jù)準(zhǔn)備42
- 4.2 基于C4.5決策樹的韻律預(yù)測42-46
- 4.3 基于最大墑模型的韻律預(yù)測46-48
- 4.4 基于CRF模型的韻律預(yù)測48-50
- 4.5 實驗結(jié)果與分析50-53
- 4.5.1 C4.5預(yù)測51
- 4.5.2 ME+CRF預(yù)測方法51-53
- 4.6 本章小結(jié)53-54
- 第五章 ToBI自動標(biāo)注在TTS中的應(yīng)用54-60
- 5.1 ToBI自動標(biāo)注在TTS中的應(yīng)用流程54-56
- 5.2 TTS系統(tǒng)的評測方法56-58
- 5.3 實驗結(jié)果與分析58
- 5.4 本章小結(jié)58-60
- 第六章 總結(jié)和展望60-62
- 6.1 總結(jié)60
- 6.2 展望60-62
- 參考文獻(xiàn)62-66
- 致謝66-67
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 周海濤;;語音合成中多音字識別的實現(xiàn)[J];科技資訊;2008年11期
2 彭騰;孫萍;;基于C#語音合成的實現(xiàn)[J];電腦編程技巧與維護(hù);2010年12期
3 張世平;;會說四種話的語音合成卡——聲威一號[J];今日電子;1993年01期
4 趙建洋;;一種高效語音合成方法[J];電子技術(shù);1993年08期
5 馬義德,張新國,羅長印;語音合成電路在我國的應(yīng)用前景[J];電子技術(shù);1994年12期
6 郝杰;語音合成:引領(lǐng)“耳朵經(jīng)濟(jì)”[J];中國電子商務(wù);2001年Z2期
7 羅三定,賈建華,沙莎;基于波形音頻段處理的中文語音合成研究[J];電腦與信息技術(shù);2002年01期
8 ;國內(nèi)語音合成領(lǐng)域?qū)@夹g(shù)發(fā)展趨勢[J];電子知識產(chǎn)權(quán);2003年10期
9 周潔,趙力,鄒采榮;情感語音合成的研究[J];電聲技術(shù);2005年10期
10 王永生;柴佩琪;曾令平;;英語語音合成中基于約束樹的音節(jié)切分算法[J];微型電腦應(yīng)用;2005年11期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 楊靜;孫金城;;關(guān)于錄制語音合成數(shù)據(jù)庫的幾個問題[A];中國聲學(xué)學(xué)會2002年全國聲學(xué)學(xué)術(shù)會議論文集[C];2002年
2 徐俊;蔡蓮紅;吳志勇;;多語種語音合成平臺的設(shè)計與實現(xiàn)[A];第一屆建立和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會議(HHME2005)論文集[C];2005年
3 陳益強(qiáng);高文;王兆其;楊長水;姜大龍;;多模式語音合成[A];第六屆全國人機(jī)語音通訊學(xué)術(shù)會議論文集[C];2001年
4 陶建華;董宏輝;許曉穎;;情感語音合成的關(guān)鍵技術(shù)分析[A];第六屆全國現(xiàn)代語音學(xué)學(xué)術(shù)會議論文集(下)[C];2003年
5 劉東華;馮靜;力梅;;深圳市新一代“12121”語音合成業(yè)務(wù)系統(tǒng)[A];中國氣象學(xué)會2007年年會氣象軟科學(xué)論壇分會場論文集[C];2007年
6 黃小明;熊子瑜;;基于古音系統(tǒng)的漢語方言語音合成研究[A];第十二屆全國人機(jī)語音通訊學(xué)術(shù)會議(NCMMSC'2013)論文集[C];2013年
7 鄒煜;何偉;侯敏;滕永林;朱維彬;;面向語音合成的新聞播報語音庫構(gòu)建及其特殊韻律結(jié)構(gòu)[A];中國計算機(jī)語言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年
8 賀琳;張蕊;俞舸;;大規(guī)模語音合成語料庫的錄制及常見問題[A];中國聲學(xué)學(xué)會2002年全國聲學(xué)學(xué)術(shù)會議論文集[C];2002年
9 陶建華;康永國;;基于多元激勵的高質(zhì)量語音合成聲學(xué)模型[A];第七屆全國人機(jī)語音通訊學(xué)術(shù)會議(NCMMSC7)論文集[C];2003年
10 吳志勇;蔡蓮紅;蒙美玲;;可視語音合成中基于音視頻關(guān)聯(lián)模型的視位參數(shù)優(yōu)化[A];第八屆全國人機(jī)語音通訊學(xué)術(shù)會議論文集[C];2005年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 記者 桂運安;中科大11項語音合成指標(biāo)世界第一[N];安徽日報;2014年
2 本報記者 何進(jìn)偉;語音合成露崢嶸[N];網(wǎng)絡(luò)世界;2001年
3 李羚;多語種語音合成助力數(shù)字奧運[N];中國計算機(jī)報;2003年
4 清華大學(xué)計算機(jī)系人機(jī)交互與媒體集成研究所 陶建華 蔡蓮紅;語音合成的應(yīng)用系統(tǒng)設(shè)計[N];計算機(jī)世界;2001年
5 ;嵌入式語音合成平臺[N];計算機(jī)世界;2002年
6 孫曉聞;語音合成 讓機(jī)器“像人一樣說話”[N];中國勞動保障報;2005年
7 ;新型語音合成軟件面世[N];人民郵電;2008年
8 炎黃新星公司供稿;炎黃之聲SinoSonic[N];計算機(jī)世界;2002年
9 劉權(quán);語音合成融入證券客服[N];中國計算機(jī)報;2003年
10 ;語音產(chǎn)品走向開放式架構(gòu)[N];中國計算機(jī)報;2004年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 高瑩瑩;面向情感語音合成的言語情感建模研究[D];北京交通大學(xué);2016年
2 高裴裴;人眼驅(qū)動語音合成的若干關(guān)鍵技術(shù)研究[D];南開大學(xué);2012年
3 趙暉;真實感漢語可視語音合成關(guān)鍵技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2010年
4 蘇莊鑾;情感語音合成[D];中國科學(xué)技術(shù)大學(xué);2006年
5 盧恒;基于統(tǒng)計模型與發(fā)音錯誤檢測的語音合成方法研究[D];中國科學(xué)技術(shù)大學(xué);2011年
6 雷鳴;統(tǒng)計參數(shù)語音合成中的聲學(xué)模型建模方法研究[D];中國科學(xué)技術(shù)大學(xué);2012年
7 蔡明琦;融合發(fā)音機(jī)理的統(tǒng)計參數(shù)語音合成方法研究[D];中國科學(xué)技術(shù)大學(xué);2015年
8 凌震華;基于統(tǒng)計聲學(xué)建模的語音合成技術(shù)研究[D];中國科學(xué)技術(shù)大學(xué);2008年
9 楊辰雨;語音合成音庫自動標(biāo)注方法研究[D];中國科學(xué)技術(shù)大學(xué);2014年
10 尉洪;漢語基元音素獨立分量譜分析對比及語音合成研究[D];云南大學(xué);2011年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 王澤勛;多層次韻律和短時譜同步變換的情感語音合成[D];蘇州大學(xué);2015年
2 熊林云;基于ARM Cortex-M3的語音合成軟件系統(tǒng)設(shè)計與實現(xiàn)[D];電子科技大學(xué);2014年
3 章琴;基于HMM的中文情感語音合成的研究[D];合肥工業(yè)大學(xué);2014年
4 李冰潔;基于聲韻母的嵌入式語音合成[D];北京交通大學(xué);2016年
5 李煥君;個性化語音合成在船舶導(dǎo)航系統(tǒng)中應(yīng)用研究[D];大連海事大學(xué);2016年
6 馮歡;基于HMM的歌詞到歌聲轉(zhuǎn)換的研究[D];西北師范大學(xué);2015年
7 王海燕;漢藏雙語跨語言統(tǒng)計參數(shù)語音合成的研究[D];西北師范大學(xué);2015年
8 孫曉輝;結(jié)合聽感度量的語音合成方法研究[D];中國科學(xué)技術(shù)大學(xué);2016年
9 李翔凰;基于HMM-RBM的蒙古語語音合成研究[D];內(nèi)蒙古大學(xué);2016年
10 王雨蒙;英語文語轉(zhuǎn)換系統(tǒng)中的ToBl韻律自動標(biāo)注方法與實現(xiàn)[D];云南大學(xué);2016年
本文關(guān)鍵詞:英語文語轉(zhuǎn)換系統(tǒng)中的ToBl韻律自動標(biāo)注方法與實現(xiàn),由筆耕文化傳播整理發(fā)布。
本文編號:461438
本文鏈接:http://www.sikaile.net/kejilunwen/xinxigongchenglunwen/461438.html