天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 自動(dòng)化論文 >

基于深度學(xué)習(xí)的彝語語音合成的研究

發(fā)布時(shí)間:2024-05-20 03:16
  人工智能發(fā)展態(tài)勢(shì)迅猛,深度學(xué)習(xí)應(yīng)用前景廣闊。目前的語音合成(Speech Synthesis)發(fā)展更加成熟,在合成高質(zhì)量、高可懂度以及高自然度語音的基礎(chǔ)上,不再拘泥于使用單一的參數(shù)化方法,而是更加傾向使用深度學(xué)習(xí)的方法。主流語言如漢語、英語等借助易獲取龐大的數(shù)據(jù)資源等優(yōu)勢(shì),利用神經(jīng)網(wǎng)絡(luò)甚至深度學(xué)習(xí)的方法,使得主流語言的合成語音更加自然,合成技術(shù)被應(yīng)用至各個(gè)領(lǐng)域。但是少數(shù)民族語言、地方特色語言以及低資源語言的系統(tǒng)性的語音合成研究相對(duì)較少,用于少數(shù)民族語言語音合成的方法較為稀缺。彝族作為中國這個(gè)多民族國家的第六大少數(shù)民族,有著自己獨(dú)特的人文政治和風(fēng)俗文化,彝語具有重要的研究?jī)r(jià)值。本文以少數(shù)民族語言語音合成為研究目標(biāo),以彝語作為研究對(duì)象,對(duì)彝語語音合成用的文本分析進(jìn)行了研究。在此基礎(chǔ)上,利用深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)以及端到端(End-to-end,E2E)的方法實(shí)現(xiàn)了彝語語音合成,并對(duì)E2E的方法提出了改進(jìn),有效地減少了合成高品質(zhì)語音時(shí)所需要的語料數(shù)量。論文的主要工作和創(chuàng)新如下:1.設(shè)計(jì)并建立了一個(gè)彝語的語料庫,收集、整理、建立了用于彝語文本分析的字音轉(zhuǎn)...

【文章頁數(shù)】:47 頁

【學(xué)位級(jí)別】:碩士

【部分圖文】:

圖4.2基線E2E模型在使用實(shí)驗(yàn)數(shù)據(jù)A時(shí)的損失收斂圖

圖4.2基線E2E模型在使用實(shí)驗(yàn)數(shù)據(jù)A時(shí)的損失收斂圖

第4章彝語語音合成的實(shí)驗(yàn)23為0.5,在進(jìn)行到40k步時(shí)進(jìn)行衰減。訓(xùn)練均進(jìn)行100k步,訓(xùn)練過程中進(jìn)行觀察,每5k步進(jìn)行一次驗(yàn)證集的驗(yàn)證,保證訓(xùn)練的模型不會(huì)有太大偏差。沒訓(xùn)練好的模型在預(yù)測(cè)時(shí),G&L算法的能量參數(shù)設(shè)置為1.2,而其迭代上限為60次。4.2.3實(shí)驗(yàn)評(píng)測(cè)本文對(duì)基于E2....


圖4.4帶有文本分析的E2E模型在使用實(shí)驗(yàn)數(shù)據(jù)A時(shí)的損失收斂圖

圖4.4帶有文本分析的E2E模型在使用實(shí)驗(yàn)數(shù)據(jù)A時(shí)的損失收斂圖

第4章彝語語音合成的實(shí)驗(yàn)24對(duì)于帶有文本分析的E2E模型框架,由于加入了專家知識(shí),網(wǎng)絡(luò)結(jié)構(gòu)多出一部分,參數(shù)訓(xùn)練相對(duì)變多。當(dāng)實(shí)驗(yàn)數(shù)據(jù)僅為A時(shí),在35k步左右才趨于平緩,也在70k步左右基本收斂,而使用全部數(shù)據(jù)時(shí),收斂仍在35k不左右趨于平緩,而在70k步左右基本收斂。總得來說,當(dāng)實(shí)....


圖4.3基線E2E模型在使用實(shí)驗(yàn)數(shù)據(jù)A、B時(shí)的損失收斂圖

圖4.3基線E2E模型在使用實(shí)驗(yàn)數(shù)據(jù)A、B時(shí)的損失收斂圖

第4章彝語語音合成的實(shí)驗(yàn)24對(duì)于帶有文本分析的E2E模型框架,由于加入了專家知識(shí),網(wǎng)絡(luò)結(jié)構(gòu)多出一部分,參數(shù)訓(xùn)練相對(duì)變多。當(dāng)實(shí)驗(yàn)數(shù)據(jù)僅為A時(shí),在35k步左右才趨于平緩,也在70k步左右基本收斂,而使用全部數(shù)據(jù)時(shí),收斂仍在35k不左右趨于平緩,而在70k步左右基本收斂?偟脕碚f,當(dāng)實(shí)....


圖4.5帶有文本分析的E2E模型在使用實(shí)驗(yàn)數(shù)據(jù)A、B時(shí)的損失收斂圖

圖4.5帶有文本分析的E2E模型在使用實(shí)驗(yàn)數(shù)據(jù)A、B時(shí)的損失收斂圖

第4章彝語語音合成的實(shí)驗(yàn)25表4.4為針對(duì)兩個(gè)實(shí)驗(yàn)在不同實(shí)驗(yàn)數(shù)據(jù)下,產(chǎn)生不同結(jié)果后計(jì)算所得的MCD,表中結(jié)果分為在驗(yàn)證集上的結(jié)果和在測(cè)試集中的結(jié)果。由表4.4可以看出實(shí)驗(yàn)語料數(shù)量的增多可以有效地降低MCD,即有效地提高合成語音和原始語音的相似度,同時(shí)還可以觀察出帶有文本分析的E2....



本文編號(hào):3978876

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/3978876.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶412e6***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com