天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于SailAlign的中文語(yǔ)音文語(yǔ)對(duì)齊的研究

發(fā)布時(shí)間:2017-07-19 10:33

  本文關(guān)鍵詞:基于SailAlign的中文語(yǔ)音文語(yǔ)對(duì)齊的研究


  更多相關(guān)文章: 文語(yǔ)對(duì)齊 SailAlign 語(yǔ)音識(shí)別 語(yǔ)言模型


【摘要】:文語(yǔ)對(duì)齊是以語(yǔ)音識(shí)別器為基礎(chǔ),在時(shí)間上對(duì)語(yǔ)音和文本進(jìn)行強(qiáng)制對(duì)齊的過(guò)程。文語(yǔ)對(duì)齊通常被應(yīng)用在多媒體檢索和訓(xùn)練一個(gè)大詞匯量的語(yǔ)音識(shí)別和合成系統(tǒng)。近年來(lái)網(wǎng)絡(luò)上可以獲取越來(lái)越豐富的音頻資源,促進(jìn)了語(yǔ)音和文本對(duì)齊的大規(guī)模研究。例如有聲書(shū)本,多媒體文檔等。對(duì)這些語(yǔ)音和文本,采用傳統(tǒng)的基于維特比的強(qiáng)制對(duì)齊算法被證明對(duì)于文本和語(yǔ)音不匹配或者語(yǔ)音存在噪聲的情況存在不足。為了使語(yǔ)音和文本能夠避開(kāi)這些限制,使用語(yǔ)音識(shí)別器對(duì)原始的語(yǔ)音進(jìn)行識(shí)別,從而得到含有時(shí)間信息的識(shí)別文本,再把該文本與原始文本進(jìn)行對(duì)齊,來(lái)得到兩者共同的部分。這樣就把語(yǔ)音和文本的對(duì)齊問(wèn)題轉(zhuǎn)化成為文本和文本的對(duì)齊問(wèn)題,后一種問(wèn)題的解決方案通常要求的計(jì)算量要少得多。SailAlign這一開(kāi)源工具就是基于這種語(yǔ)音和文本對(duì)齊方法。本論文利用修改的SailAlign算法進(jìn)行中文的文語(yǔ)對(duì)齊研究。在語(yǔ)音多于文本的情況下,我們進(jìn)行了實(shí)驗(yàn),并對(duì)其結(jié)果進(jìn)行分析。最后我們還實(shí)現(xiàn)了自動(dòng)化的文語(yǔ)對(duì)齊。本文的主要研究工作如下:首先,由于SailAlign算法不支持中文,所以我們修改了SailAlign的配置文件,并且添加了中文的語(yǔ)言模型和聲學(xué)模型,從而能夠使用SailAlign進(jìn)行中文的文語(yǔ)對(duì)齊研究。聲學(xué)模型和語(yǔ)言模型是用大量的新聞聯(lián)播的語(yǔ)音和文本數(shù)據(jù)訓(xùn)練得到的,使用SailAlign算法對(duì)語(yǔ)音和文本進(jìn)行文語(yǔ)對(duì)齊的過(guò)程是迭代的和自適應(yīng)的。通過(guò)實(shí)驗(yàn)我們對(duì)SailAlign算法在語(yǔ)音多于文本的情況下進(jìn)行文語(yǔ)對(duì)齊的正確率進(jìn)行了分析和比較。實(shí)驗(yàn)表明,在語(yǔ)音多于文本的情況下,利用該算法得到的語(yǔ)音和文本進(jìn)行對(duì)齊的正確率比較高。接下來(lái)我們通過(guò)SailAlign算法進(jìn)行文語(yǔ)對(duì)齊以后,然后再把對(duì)齊的語(yǔ)音和文本數(shù)據(jù)分割出來(lái),就可以得到一一對(duì)應(yīng)的語(yǔ)音和文本。為了節(jié)省時(shí)間,提高效率,我們把SailAlign文語(yǔ)對(duì)齊的整個(gè)過(guò)程用一個(gè)shell腳本實(shí)現(xiàn)自動(dòng)化,整個(gè)過(guò)程都是在Linux這一個(gè)平臺(tái)下運(yùn)行的。該自動(dòng)化的文語(yǔ)對(duì)齊過(guò)程分為三個(gè)模塊,分別為文本和語(yǔ)音的預(yù)處理,SailAlign的文語(yǔ)對(duì)齊,文本的抽取和語(yǔ)音的切分。
【關(guān)鍵詞】:文語(yǔ)對(duì)齊 SailAlign 語(yǔ)音識(shí)別 語(yǔ)言模型
【學(xué)位授予單位】:中國(guó)海洋大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類(lèi)號(hào)】:TN912.34
【目錄】:
  • 摘要7-9
  • Abstract9-13
  • 1 引言13-21
  • 1.1 語(yǔ)音識(shí)別發(fā)展歷史13-16
  • 1.2 語(yǔ)音識(shí)別系統(tǒng)介紹16-17
  • 1.3 文語(yǔ)對(duì)齊的特點(diǎn)和研究現(xiàn)狀17-19
  • 1.4 本文研究的主要內(nèi)容19
  • 1.5 本文的組織結(jié)構(gòu)19-21
  • 2 基本原理和工具介紹21-29
  • 2.1 HMM21-26
  • 2.1.1 馬爾科夫過(guò)程21
  • 2.1.2 隱馬爾可夫模型21-23
  • 2.1.3 HMM基本要素及三個(gè)問(wèn)題23-26
  • 2.2 HTK26-28
  • 2.3 本章小結(jié)28-29
  • 3 各對(duì)應(yīng)率下文語(yǔ)對(duì)齊的實(shí)驗(yàn)分析29-39
  • 3.1 SailAlign30-35
  • 3.1.1 編輯距離30-31
  • 3.1.2 SailAlign介紹31-32
  • 3.1.3 SailAlign算法32-35
  • 3.2 實(shí)驗(yàn)結(jié)果和數(shù)據(jù)分析35-37
  • 3.3 本章小結(jié)37-39
  • 4 自動(dòng)化的文語(yǔ)對(duì)齊39-49
  • 4.1 文本與語(yǔ)音的預(yù)處理39-42
  • 4.2 SailAlign的文語(yǔ)對(duì)齊42-45
  • 4.3 文本的抽取和語(yǔ)音的切分45-46
  • 4.4 自動(dòng)化文語(yǔ)對(duì)齊46-48
  • 4.5 本章小結(jié)48-49
  • 5 總結(jié)與展望49-51
  • 5.1 本文的主要工作49
  • 5.2 對(duì)未來(lái)工作的展望49-51
  • 參考文獻(xiàn)51-56
  • 致謝56-57
  • 個(gè)人簡(jiǎn)歷57

【相似文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前1條

1 王者歸來(lái);;閉著眼睛“看”新聞——請(qǐng)來(lái)“文語(yǔ)通”為你讀網(wǎng)頁(yè)[J];電腦愛(ài)好者(普及版);2010年09期

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前3條

1 高紅坤;基于SailAlign的中文語(yǔ)音文語(yǔ)對(duì)齊的研究[D];中國(guó)海洋大學(xué);2015年

2 吳s,

本文編號(hào):562474


資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/wltx/562474.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)0608b***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com