中文課程視頻字幕自動(dòng)生成研究
本文關(guān)鍵詞:中文課程視頻字幕自動(dòng)生成研究
更多相關(guān)文章: 字幕 語(yǔ)音識(shí)別 特征參數(shù)提取 聲學(xué)模型 語(yǔ)言模型
【摘要】:視頻字幕是為了理解視頻內(nèi)容而產(chǎn)生的輔助工具,隨著互聯(lián)網(wǎng)的發(fā)展,視頻字幕的配備越來(lái)越重要。本文針對(duì)視頻字幕自動(dòng)生成問(wèn)題進(jìn)行了研究,闡述了提取課程視頻的音頻流、音頻流斷句切分、語(yǔ)音識(shí)別、格式文本文件生成等技術(shù)原理,重點(diǎn)討論了中文語(yǔ)音識(shí)別技術(shù)。中文語(yǔ)音識(shí)別過(guò)程包括特征參數(shù)提取、聲學(xué)模型、語(yǔ)言模型和模式匹配四個(gè)部分。本文對(duì)這四個(gè)部分運(yùn)用到的相關(guān)技術(shù)進(jìn)行了比較分析,選擇MFCC、HMM和N-gram等技術(shù)及其相關(guān)算法進(jìn)行中文語(yǔ)音識(shí)別研究,并詳細(xì)闡述了MFCC特征參數(shù)提取方法、HMM聲學(xué)模型及其相關(guān)算法以及N-gram語(yǔ)言模型及平滑處理方法。針對(duì)中文發(fā)音規(guī)則,以聲母和韻母為音素,結(jié)合卡內(nèi)基梅隆大學(xué)開(kāi)發(fā)的sphinx語(yǔ)音識(shí)別系統(tǒng),進(jìn)行聲學(xué)建模、語(yǔ)言建模及字典構(gòu)建。聲學(xué)建模時(shí)采用的是HMM模型,語(yǔ)言建模時(shí)采用的是N-gram統(tǒng)計(jì)模型,字典的格式采用的是一條語(yǔ)句對(duì)應(yīng)一組音素。在建模過(guò)程中,總共收錄了音頻文件將近3萬(wàn)個(gè),對(duì)應(yīng)的詞條也近3萬(wàn)條。論文重點(diǎn)對(duì)聲學(xué)建模和語(yǔ)言建模的過(guò)程進(jìn)行了詳細(xì)地闡述,在聲學(xué)建模過(guò)程中,重點(diǎn)講解了建模前期要做的數(shù)據(jù)準(zhǔn)備工作及訓(xùn)練過(guò)程,在語(yǔ)言建模過(guò)程中,重點(diǎn)對(duì)模型訓(xùn)練過(guò)程進(jìn)行了講解。通過(guò)建立語(yǔ)料庫(kù)、研究sphinx語(yǔ)音識(shí)別系統(tǒng)及設(shè)計(jì)開(kāi)發(fā)字幕生成系統(tǒng)三個(gè)步驟,最終實(shí)現(xiàn)了一個(gè)字幕自動(dòng)生成系統(tǒng)。測(cè)試和對(duì)比實(shí)驗(yàn)表明,本研究設(shè)計(jì)的字幕自動(dòng)生成系統(tǒng)中文識(shí)別率約為51%。通過(guò)分析總結(jié),偏小的語(yǔ)料庫(kù)是制約本研究識(shí)別率的最重要因素。
【關(guān)鍵詞】:字幕 語(yǔ)音識(shí)別 特征參數(shù)提取 聲學(xué)模型 語(yǔ)言模型
【學(xué)位授予單位】:新疆農(nóng)業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TN912.34
【目錄】:
- 摘要3-4
- Abstract4-7
- 第1章 緒論7-13
- 1.1 研究背景和意義7-8
- 1.2 國(guó)內(nèi)外發(fā)展與現(xiàn)狀8-10
- 1.2.1 國(guó)外發(fā)展與現(xiàn)狀8-9
- 1.2.2 國(guó)內(nèi)發(fā)展與現(xiàn)狀9-10
- 1.3 研究目標(biāo)和內(nèi)容10-11
- 1.3.1 研究目標(biāo)10
- 1.3.2 研究?jī)?nèi)容10-11
- 1.4 本文的組織結(jié)構(gòu)11-13
- 第2章 漢語(yǔ)語(yǔ)音識(shí)別13-22
- 2.1 語(yǔ)音識(shí)別系統(tǒng)簡(jiǎn)介13-15
- 2.2 聲學(xué)模型15-18
- 2.2.1 聲學(xué)模型概述15-16
- 2.2.2 漢語(yǔ)發(fā)音特點(diǎn)概述16-17
- 2.2.3 特征參數(shù)提取方法介紹17-18
- 2.2.4 聲學(xué)建模的方法18
- 2.3 語(yǔ)言模型18-20
- 2.4 字典20-21
- 2.5 本章小結(jié)21-22
- 第3章 聲學(xué)模型22-38
- 3.1 基于MFCC的特征參數(shù)提取22-25
- 3.1.1 預(yù)加重22-23
- 3.1.2 分幀23
- 3.1.3 加窗23-24
- 3.1.4 FFT變換24
- 3.1.5 MEL頻率濾波器組24
- 3.1.6 Log(取對(duì)數(shù))24-25
- 3.1.7 DCT(離散余弦變換)25
- 3.2 HMM模型25-29
- 3.2.1 forward-backward算法27-28
- 3.2.2 Viterbi算法28-29
- 3.3 基于sphinx的聲學(xué)模型訓(xùn)練29-37
- 3.3.1 sphinx框架介紹29-30
- 3.3.2 語(yǔ)料的選取及存儲(chǔ)30-31
- 3.3.3 訓(xùn)練數(shù)據(jù)的準(zhǔn)備準(zhǔn)備31-34
- 3.3.4 模型的訓(xùn)練34-37
- 3.4 本章小結(jié)37-38
- 第4章 語(yǔ)言模型38-46
- 4.1 語(yǔ)言模型概述38
- 4.2 統(tǒng)計(jì)語(yǔ)言模型38-41
- 4.2.1 N-gram模型38-39
- 4.2.2 平滑處理方法39-41
- 4.3 語(yǔ)言模型訓(xùn)練41-45
- 4.4 本章小結(jié)45-46
- 第5章 中文課程視頻字幕自動(dòng)生成系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)46-57
- 5.1 語(yǔ)料庫(kù)的建設(shè)46-48
- 5.2 sphinx語(yǔ)音識(shí)別技術(shù)研究48-49
- 5.3 中文課程視頻字幕自動(dòng)生成系統(tǒng)的設(shè)計(jì)49-54
- 5.3.1 系統(tǒng)的設(shè)計(jì)49-51
- 5.3.2 視頻處理51
- 5.3.3 音頻處理51
- 5.3.4 語(yǔ)音識(shí)別51-53
- 5.3.5 字幕的生成53-54
- 5.4 實(shí)驗(yàn)及實(shí)驗(yàn)結(jié)果分析54-56
- 5.4.1 不同大小的模型庫(kù)對(duì)識(shí)別率的影響比對(duì)55
- 5.4.2 不同N-gram模型對(duì)識(shí)別率的影響比對(duì)55
- 5.4.3 字幕生成系統(tǒng)識(shí)別結(jié)果55-56
- 5.5 本章小結(jié)56-57
- 第6章 總結(jié)與展望57-59
- 6.1 全文總結(jié)57-58
- 6.2 展望58-59
- 參考文獻(xiàn)59-62
- 附錄62-66
- 致謝66-67
- 作者簡(jiǎn)介67
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 郭遠(yuǎn)瓊;提高語(yǔ)音識(shí)別率點(diǎn)滴[J];電腦技術(shù);2000年03期
2 邢文;語(yǔ)音識(shí)別[J];個(gè)人電腦;2000年02期
3 ;語(yǔ)音識(shí)別的真相[J];個(gè)人電腦;2001年12期
4 ;語(yǔ)音識(shí)別漸入佳境[J];個(gè)人電腦;2002年03期
5 ;微軟語(yǔ)音識(shí)別軟件可與人直接對(duì)話[J];自動(dòng)化博覽;2003年04期
6 ;語(yǔ)音識(shí)別[J];印刷世界;2004年01期
7 杰里米·瓦格斯塔夫;讓語(yǔ)音識(shí)別軟件 解放你的雙手[J];農(nóng)業(yè)圖書情報(bào)學(xué)刊;2004年03期
8 韓紀(jì)慶,王歡良,李海峰,鄭鐵然;基于語(yǔ)音識(shí)別的發(fā)音學(xué)習(xí)技術(shù)[J];電聲技術(shù);2004年09期
9 陳孝強(qiáng);語(yǔ)音識(shí)別擬起新潮[J];微電腦世界;2005年07期
10 韓紀(jì)慶;張磊;鄭鐵然;;網(wǎng)絡(luò)環(huán)境下的語(yǔ)音識(shí)別方法[J];計(jì)算機(jī)科學(xué);2005年01期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條
1 張歆奕;吳今培;張其善;;語(yǔ)音的共性特征及其在語(yǔ)音識(shí)別中的應(yīng)用[A];第十屆全國(guó)信號(hào)處理學(xué)術(shù)年會(huì)(CCSP-2001)論文集[C];2001年
2 杜樹(shù)木;何良華;;一種新的基于段長(zhǎng)分布的語(yǔ)音識(shí)別模型[A];2009年通信理論與信號(hào)處理學(xué)術(shù)年會(huì)論文集[C];2009年
3 李楨;高萬(wàn)林;歐文浩;徐山川;;基于關(guān)鍵詞語(yǔ)音識(shí)別的農(nóng)業(yè)信息語(yǔ)音服務(wù)系統(tǒng)的研究與實(shí)現(xiàn)[A];中國(guó)農(nóng)業(yè)工程學(xué)會(huì)電氣信息與自動(dòng)化專業(yè)委員會(huì)、中國(guó)電機(jī)工程學(xué)會(huì)農(nóng)村電氣化分會(huì)科技與教育專委會(huì)2010年學(xué)術(shù)年會(huì)論文摘要[C];2010年
4 張冰;龍長(zhǎng)才;羅海風(fēng);;熟悉掩蔽音背景下的目標(biāo)語(yǔ)音識(shí)別[A];泛在信息社會(huì)中的聲學(xué)——中國(guó)聲學(xué)學(xué)會(huì)2010年全國(guó)會(huì)員代表大會(huì)暨學(xué)術(shù)會(huì)議論文集[C];2010年
5 王承發(fā);趙德彬;金山;苗百利;朱志瑩;;語(yǔ)音識(shí)別應(yīng)用中抗噪聲干擾方法的初步探討[A];第二屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集[C];1992年
6 杜笑平;楊啟綱;楊家沅;;過(guò)零周期轉(zhuǎn)移概率矩陣語(yǔ)音識(shí)別部件的研制[A];第二屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集[C];1992年
7 季宏;劉志文;杜燕玲;黃曾陽(yáng);;語(yǔ)音識(shí)別中的音字轉(zhuǎn)換[A];第三屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集[C];1994年
8 葛余博;楊大利;曾德超;;噪聲環(huán)境下語(yǔ)音識(shí)別的幾個(gè)問(wèn)題(一)[A];第三屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集[C];1994年
9 朱奇峰;俞鐵城;;聽(tīng)覺(jué)中的協(xié)同現(xiàn)象和其對(duì)語(yǔ)音識(shí)別影響的探討[A];第四屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集[C];1996年
10 姚磊;黃泰翼;陳景東;;一種高魯棒性語(yǔ)音識(shí)別的通用自適應(yīng)方法研究[A];第四屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集[C];1996年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前10條
1 黃夢(mèng);方案商積極切入語(yǔ)音識(shí)別市場(chǎng)[N];電腦商報(bào);2006年
2 閆婷;語(yǔ)音識(shí)別 理想與現(xiàn)實(shí)的距離[N];計(jì)算機(jī)世界;2007年
3 劉喜喜;語(yǔ)音識(shí)別將把鼠標(biāo)鍵盤打入冷宮?[N];中國(guó)計(jì)算機(jī)報(bào);2008年
4 樂(lè)天;語(yǔ)音識(shí)別:讓你的手機(jī)更聰明[N];計(jì)算機(jī)世界;2011年
5 特約作者 王佳彬;語(yǔ)音識(shí)別漸入佳境[N];電腦報(bào);2002年
6 雨夏;語(yǔ)音識(shí)別重在應(yīng)用[N];計(jì)算機(jī)世界;2001年
7 ;語(yǔ)音識(shí)別企業(yè)應(yīng)用前景光明[N];計(jì)算機(jī)世界;2003年
8 王向東 欒煥博 林守勛 錢躍良;語(yǔ)音識(shí)別:抗噪音能力有待加強(qiáng)[N];計(jì)算機(jī)世界;2006年
9 上海 高博;讓電腦“聽(tīng)懂”人話[N];電腦報(bào);2008年
10 張彤;語(yǔ)音識(shí)別融入統(tǒng)一通信[N];網(wǎng)絡(luò)世界;2008年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 許金普;農(nóng)產(chǎn)品市場(chǎng)信息采集的語(yǔ)音識(shí)別魯棒性方法研究[D];中國(guó)農(nóng)業(yè)科學(xué)院;2015年
2 包希日莫;面向蒙古語(yǔ)的語(yǔ)音識(shí)別聲學(xué)建模研究[D];內(nèi)蒙古大學(xué);2016年
3 吳斌;語(yǔ)音識(shí)別中的后處理技術(shù)研究[D];北京郵電大學(xué);2008年
4 奉小慧;音頻噪聲環(huán)境下唇動(dòng)信息在語(yǔ)音識(shí)別中的應(yīng)用技術(shù)研究[D];華南理工大學(xué);2010年
5 孫f,
本文編號(hào):531580
本文鏈接:http://www.sikaile.net/kejilunwen/xinxigongchenglunwen/531580.html