基于SailAlign的中文語(yǔ)音文語(yǔ)對(duì)齊的研究
發(fā)布時(shí)間:2017-07-19 10:33
本文關(guān)鍵詞:基于SailAlign的中文語(yǔ)音文語(yǔ)對(duì)齊的研究
更多相關(guān)文章: 文語(yǔ)對(duì)齊 SailAlign 語(yǔ)音識(shí)別 語(yǔ)言模型
【摘要】:文語(yǔ)對(duì)齊是以語(yǔ)音識(shí)別器為基礎(chǔ),在時(shí)間上對(duì)語(yǔ)音和文本進(jìn)行強(qiáng)制對(duì)齊的過(guò)程。文語(yǔ)對(duì)齊通常被應(yīng)用在多媒體檢索和訓(xùn)練一個(gè)大詞匯量的語(yǔ)音識(shí)別和合成系統(tǒng)。近年來(lái)網(wǎng)絡(luò)上可以獲取越來(lái)越豐富的音頻資源,促進(jìn)了語(yǔ)音和文本對(duì)齊的大規(guī)模研究。例如有聲書(shū)本,多媒體文檔等。對(duì)這些語(yǔ)音和文本,采用傳統(tǒng)的基于維特比的強(qiáng)制對(duì)齊算法被證明對(duì)于文本和語(yǔ)音不匹配或者語(yǔ)音存在噪聲的情況存在不足。為了使語(yǔ)音和文本能夠避開(kāi)這些限制,使用語(yǔ)音識(shí)別器對(duì)原始的語(yǔ)音進(jìn)行識(shí)別,從而得到含有時(shí)間信息的識(shí)別文本,再把該文本與原始文本進(jìn)行對(duì)齊,來(lái)得到兩者共同的部分。這樣就把語(yǔ)音和文本的對(duì)齊問(wèn)題轉(zhuǎn)化成為文本和文本的對(duì)齊問(wèn)題,后一種問(wèn)題的解決方案通常要求的計(jì)算量要少得多。SailAlign這一開(kāi)源工具就是基于這種語(yǔ)音和文本對(duì)齊方法。本論文利用修改的SailAlign算法進(jìn)行中文的文語(yǔ)對(duì)齊研究。在語(yǔ)音多于文本的情況下,我們進(jìn)行了實(shí)驗(yàn),并對(duì)其結(jié)果進(jìn)行分析。最后我們還實(shí)現(xiàn)了自動(dòng)化的文語(yǔ)對(duì)齊。本文的主要研究工作如下:首先,由于SailAlign算法不支持中文,所以我們修改了SailAlign的配置文件,并且添加了中文的語(yǔ)言模型和聲學(xué)模型,從而能夠使用SailAlign進(jìn)行中文的文語(yǔ)對(duì)齊研究。聲學(xué)模型和語(yǔ)言模型是用大量的新聞聯(lián)播的語(yǔ)音和文本數(shù)據(jù)訓(xùn)練得到的,使用SailAlign算法對(duì)語(yǔ)音和文本進(jìn)行文語(yǔ)對(duì)齊的過(guò)程是迭代的和自適應(yīng)的。通過(guò)實(shí)驗(yàn)我們對(duì)SailAlign算法在語(yǔ)音多于文本的情況下進(jìn)行文語(yǔ)對(duì)齊的正確率進(jìn)行了分析和比較。實(shí)驗(yàn)表明,在語(yǔ)音多于文本的情況下,利用該算法得到的語(yǔ)音和文本進(jìn)行對(duì)齊的正確率比較高。接下來(lái)我們通過(guò)SailAlign算法進(jìn)行文語(yǔ)對(duì)齊以后,然后再把對(duì)齊的語(yǔ)音和文本數(shù)據(jù)分割出來(lái),就可以得到一一對(duì)應(yīng)的語(yǔ)音和文本。為了節(jié)省時(shí)間,提高效率,我們把SailAlign文語(yǔ)對(duì)齊的整個(gè)過(guò)程用一個(gè)shell腳本實(shí)現(xiàn)自動(dòng)化,整個(gè)過(guò)程都是在Linux這一個(gè)平臺(tái)下運(yùn)行的。該自動(dòng)化的文語(yǔ)對(duì)齊過(guò)程分為三個(gè)模塊,分別為文本和語(yǔ)音的預(yù)處理,SailAlign的文語(yǔ)對(duì)齊,文本的抽取和語(yǔ)音的切分。
【關(guān)鍵詞】:文語(yǔ)對(duì)齊 SailAlign 語(yǔ)音識(shí)別 語(yǔ)言模型
【學(xué)位授予單位】:中國(guó)海洋大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類(lèi)號(hào)】:TN912.34
【目錄】:
- 摘要7-9
- Abstract9-13
- 1 引言13-21
- 1.1 語(yǔ)音識(shí)別發(fā)展歷史13-16
- 1.2 語(yǔ)音識(shí)別系統(tǒng)介紹16-17
- 1.3 文語(yǔ)對(duì)齊的特點(diǎn)和研究現(xiàn)狀17-19
- 1.4 本文研究的主要內(nèi)容19
- 1.5 本文的組織結(jié)構(gòu)19-21
- 2 基本原理和工具介紹21-29
- 2.1 HMM21-26
- 2.1.1 馬爾科夫過(guò)程21
- 2.1.2 隱馬爾可夫模型21-23
- 2.1.3 HMM基本要素及三個(gè)問(wèn)題23-26
- 2.2 HTK26-28
- 2.3 本章小結(jié)28-29
- 3 各對(duì)應(yīng)率下文語(yǔ)對(duì)齊的實(shí)驗(yàn)分析29-39
- 3.1 SailAlign30-35
- 3.1.1 編輯距離30-31
- 3.1.2 SailAlign介紹31-32
- 3.1.3 SailAlign算法32-35
- 3.2 實(shí)驗(yàn)結(jié)果和數(shù)據(jù)分析35-37
- 3.3 本章小結(jié)37-39
- 4 自動(dòng)化的文語(yǔ)對(duì)齊39-49
- 4.1 文本與語(yǔ)音的預(yù)處理39-42
- 4.2 SailAlign的文語(yǔ)對(duì)齊42-45
- 4.3 文本的抽取和語(yǔ)音的切分45-46
- 4.4 自動(dòng)化文語(yǔ)對(duì)齊46-48
- 4.5 本章小結(jié)48-49
- 5 總結(jié)與展望49-51
- 5.1 本文的主要工作49
- 5.2 對(duì)未來(lái)工作的展望49-51
- 參考文獻(xiàn)51-56
- 致謝56-57
- 個(gè)人簡(jiǎn)歷57
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前1條
1 王者歸來(lái);;閉著眼睛“看”新聞——請(qǐng)來(lái)“文語(yǔ)通”為你讀網(wǎng)頁(yè)[J];電腦愛(ài)好者(普及版);2010年09期
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前3條
1 高紅坤;基于SailAlign的中文語(yǔ)音文語(yǔ)對(duì)齊的研究[D];中國(guó)海洋大學(xué);2015年
2 吳s,
本文編號(hào):562474
本文鏈接:http://www.sikaile.net/kejilunwen/wltx/562474.html
最近更新
教材專(zhuān)著