天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 信息工程論文 >

基于回歸神經(jīng)網(wǎng)絡的語音識別抗噪研究

發(fā)布時間:2017-04-10 23:28

  本文關鍵詞:基于回歸神經(jīng)網(wǎng)絡的語音識別抗噪研究,由筆耕文化傳播整理發(fā)布。


【摘要】:隨著移動互聯(lián)網(wǎng)時代的快速發(fā)展,語音識別應用變得越來越普及,語音交互由于其便捷性也逐漸被大眾所接受。但是語音識別過程中環(huán)境噪聲以及不同設備的信道多樣性制約著自動語音識別系統(tǒng)的大規(guī)模應用。近年來,深度神經(jīng)網(wǎng)絡(Deep Neural Network, DNN)被成功應用到自動語音識別系統(tǒng)中,基于大數(shù)據(jù)訓練,DNN相對于傳統(tǒng)方法有著更好的魯棒性,但是DNN在噪聲環(huán)境下仍面臨著識別率差的問題。而且,由于深度神經(jīng)網(wǎng)絡模型的特點,許多傳統(tǒng)的抗噪方法很難被直接使用。為此,本文主要做了如下工作:(一)本文在800小時的大規(guī)模訓練數(shù)據(jù)下探索不同回歸神經(jīng)網(wǎng)絡結(jié)構(gòu)的建模能力,包括輸入輸出結(jié)構(gòu),DNN-Autoencoder結(jié)構(gòu),激活函數(shù)選擇等,通過實驗對比得到最優(yōu)的神經(jīng)網(wǎng)絡結(jié)構(gòu)。該方法通過DNN強大的非線性建模能力學習噪聲語音特征與干凈語音特征的映射關系,然后將處理后的帶躁語音輸入至語音識別系統(tǒng)中進行語音識別從而提高語音識別率。本文的最優(yōu)網(wǎng)絡結(jié)構(gòu)將噪聲語音的詞錯誤率從23.8%降低到18.2%,性能相對提升23.5%。(二)本文首次將混合密度網(wǎng)絡(Mixture Density Network, MDN)應用到抗噪語音識別;旌厦芏染W(wǎng)絡將目標特征擬合為混合高斯分布,通過最大似然函數(shù)優(yōu)化神經(jīng)網(wǎng)絡,實驗表明,MDN能夠帶來相對DNN有5.0%的詞錯誤率下降,相對DNN有更強的擬合能力。(三)本文將回歸神經(jīng)網(wǎng)絡應用到了遠場語音識別以及頻譜擴寬中。遠場語音主要為卷積噪聲,本文實驗表明回歸神經(jīng)網(wǎng)絡對遠程語音建模能夠帶來識別性能相對55.5%詞錯誤率下降。同時若將回歸神經(jīng)網(wǎng)絡與后端聲學模型進行匹配性訓練則又能夠帶來相對4.9%的性能提升。同時本文將回歸神經(jīng)網(wǎng)絡應用在頻譜擴寬領域中,將8千赫茲語音特征通過回歸神經(jīng)網(wǎng)絡映射成16千赫茲語音特征,并對偽16千赫茲特征輸入到16千赫茲語音識別系統(tǒng)中進行語音識別,實驗表明,該方法可使得8k識別率性能降低在5%以下的可容忍范圍內(nèi),而訓練資源可減少一半。
【關鍵詞】:回歸神經(jīng)網(wǎng)絡 語音識別抗噪 混合神經(jīng)網(wǎng)絡 大規(guī)模連續(xù)語音識別 頻譜擴寬
【學位授予單位】:中國科學技術(shù)大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TN912.34;TP183
【目錄】:
  • 摘要5-6
  • ABSTRACT6-12
  • 第一章 緒論12-18
  • 1.1 研究背景及意義12-13
  • 1.2 研究現(xiàn)狀13-15
  • 1.3 本文的主要工作與創(chuàng)新點15-16
  • 1.4 本文的組織結(jié)構(gòu)16-18
  • 第二章 語音識別系統(tǒng)綜述18-36
  • 2.1 語音識別概述18-22
  • 2.1.1 語音特征19-20
  • 2.1.2 聲學模型20-21
  • 2.1.3 詞典與語言模型21-22
  • 2.1.4 解碼器22
  • 2.2 基于深度神經(jīng)網(wǎng)絡的聲學模型22-29
  • 2.2.1 深度神經(jīng)網(wǎng)絡23-26
  • 2.2.2 CD-DNN-HMM聲學模型26-29
  • 2.3 魯棒語音識別29-34
  • 2.3.1 特征空間30-32
  • 2.3.2 模型空間32-34
  • 2.4 本章小結(jié)34-36
  • 第三章 基于回歸神經(jīng)網(wǎng)絡的語音識別抗噪前端36-46
  • 3.1 回歸神經(jīng)網(wǎng)絡及目標函數(shù)36-38
  • 3.2 神經(jīng)網(wǎng)絡結(jié)構(gòu)選擇38-44
  • 3.2.1 實驗及結(jié)果41-44
  • 3.3 本章小結(jié)44-46
  • 第四章 基于混合密度神經(jīng)網(wǎng)絡的語音抗噪前端46-54
  • 4.1 混合密度神經(jīng)網(wǎng)絡46-50
  • 4.1.1 目標函數(shù)分析49-50
  • 4.2 實驗及結(jié)果50-53
  • 4.2.1 實驗結(jié)果50-53
  • 4.3 本章小結(jié)53-54
  • 第五章 回歸神經(jīng)網(wǎng)絡在語音識別領域其他應用54-62
  • 5.1 遠場語音識別前端54-57
  • 5.1.1 實驗及結(jié)果55-57
  • 5.2 基于頻譜擴展的語音識別57-59
  • 5.2.1 實驗及結(jié)果58
  • 5.2.2 實驗結(jié)果58-59
  • 5.3 本章小結(jié)59-62
  • 第六章 總結(jié)與展望62-64
  • 6.1 總結(jié)62-63
  • 6.2 展望63-64
  • 參考文獻64-68
  • 致謝68

【相似文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 郭遠瓊;提高語音識別率點滴[J];電腦技術(shù);2000年03期

2 邢文;語音識別[J];個人電腦;2000年02期

3 ;語音識別的真相[J];個人電腦;2001年12期

4 ;語音識別漸入佳境[J];個人電腦;2002年03期

5 ;微軟語音識別軟件可與人直接對話[J];自動化博覽;2003年04期

6 ;語音識別[J];印刷世界;2004年01期

7 杰里米·瓦格斯塔夫;讓語音識別軟件 解放你的雙手[J];農(nóng)業(yè)圖書情報學刊;2004年03期

8 韓紀慶,王歡良,李海峰,鄭鐵然;基于語音識別的發(fā)音學習技術(shù)[J];電聲技術(shù);2004年09期

9 陳孝強;語音識別擬起新潮[J];微電腦世界;2005年07期

10 韓紀慶;張磊;鄭鐵然;;網(wǎng)絡環(huán)境下的語音識別方法[J];計算機科學;2005年01期

中國重要會議論文全文數(shù)據(jù)庫 前10條

1 張歆奕;吳今培;張其善;;語音的共性特征及其在語音識別中的應用[A];第十屆全國信號處理學術(shù)年會(CCSP-2001)論文集[C];2001年

2 杜樹木;何良華;;一種新的基于段長分布的語音識別模型[A];2009年通信理論與信號處理學術(shù)年會論文集[C];2009年

3 李楨;高萬林;歐文浩;徐山川;;基于關鍵詞語音識別的農(nóng)業(yè)信息語音服務系統(tǒng)的研究與實現(xiàn)[A];中國農(nóng)業(yè)工程學會電氣信息與自動化專業(yè)委員會、中國電機工程學會農(nóng)村電氣化分會科技與教育專委會2010年學術(shù)年會論文摘要[C];2010年

4 張冰;龍長才;羅海風;;熟悉掩蔽音背景下的目標語音識別[A];泛在信息社會中的聲學——中國聲學學會2010年全國會員代表大會暨學術(shù)會議論文集[C];2010年

5 王承發(fā);趙德彬;金山;苗百利;朱志瑩;;語音識別應用中抗噪聲干擾方法的初步探討[A];第二屆全國人機語音通訊學術(shù)會議論文集[C];1992年

6 杜笑平;楊啟綱;楊家沅;;過零周期轉(zhuǎn)移概率矩陣語音識別部件的研制[A];第二屆全國人機語音通訊學術(shù)會議論文集[C];1992年

7 季宏;劉志文;杜燕玲;黃曾陽;;語音識別中的音字轉(zhuǎn)換[A];第三屆全國人機語音通訊學術(shù)會議論文集[C];1994年

8 葛余博;楊大利;曾德超;;噪聲環(huán)境下語音識別的幾個問題(一)[A];第三屆全國人機語音通訊學術(shù)會議論文集[C];1994年

9 朱奇峰;俞鐵城;;聽覺中的協(xié)同現(xiàn)象和其對語音識別影響的探討[A];第四屆全國人機語音通訊學術(shù)會議論文集[C];1996年

10 姚磊;黃泰翼;陳景東;;一種高魯棒性語音識別的通用自適應方法研究[A];第四屆全國人機語音通訊學術(shù)會議論文集[C];1996年

中國重要報紙全文數(shù)據(jù)庫 前10條

1 黃夢;方案商積極切入語音識別市場[N];電腦商報;2006年

2 閆婷;語音識別 理想與現(xiàn)實的距離[N];計算機世界;2007年

3 劉喜喜;語音識別將把鼠標鍵盤打入冷宮?[N];中國計算機報;2008年

4 樂天;語音識別:讓你的手機更聰明[N];計算機世界;2011年

5 特約作者 王佳彬;語音識別漸入佳境[N];電腦報;2002年

6 雨夏;語音識別重在應用[N];計算機世界;2001年

7 ;語音識別企業(yè)應用前景光明[N];計算機世界;2003年

8 王向東 欒煥博 林守勛 錢躍良;語音識別:抗噪音能力有待加強[N];計算機世界;2006年

9 上海 高博;讓電腦“聽懂”人話[N];電腦報;2008年

10 張彤;語音識別融入統(tǒng)一通信[N];網(wǎng)絡世界;2008年

中國博士學位論文全文數(shù)據(jù)庫 前10條

1 許金普;農(nóng)產(chǎn)品市場信息采集的語音識別魯棒性方法研究[D];中國農(nóng)業(yè)科學院;2015年

2 包希日莫;面向蒙古語的語音識別聲學建模研究[D];內(nèi)蒙古大學;2016年

3 吳斌;語音識別中的后處理技術(shù)研究[D];北京郵電大學;2008年

4 奉小慧;音頻噪聲環(huán)境下唇動信息在語音識別中的應用技術(shù)研究[D];華南理工大學;2010年

5 孫f,

本文編號:297792


資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/xinxigongchenglunwen/297792.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶25c18***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com