天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 網絡通信論文 >

基于深度學習的語音識別應用研究

發(fā)布時間:2017-07-03 10:23

  本文關鍵詞:基于深度學習的語音識別應用研究


  更多相關文章: 語音識別 深度學習 特征提取 聲學建模 深度神經網絡 卷積神經網絡


【摘要】:隨著智能家居、車載語音系統以及各種語音識別軟件流行,語音識別逐漸走進人們的視野,憑借其實用性準確性得到了廣大用戶的喜愛,同時語音識別作為人機交互的重要接口,成為人工智能領域研究的重點。在大數據的背景下,深度學習得到長足的發(fā)展,由于它對海量數據超強的建模能力,被廣泛應用與圖像、語音識別,并取得了驚人的效果?紤]到理論意義和實用價值,在深度學習的基礎上研究語音識別是一個可行的方向。深度學習是一種多層非線性變換網絡,通過大量的有監(jiān)督參數調整計算來建模數據間的復雜關系。本文詳細介紹了語音識別以及深度學習的基本原理,然后闡述了怎樣將深度學習高效的應用與語音識別中。 1、基于深度神經網絡的聲學特征提取研究 深度神經網絡是一種有監(jiān)督訓練的多層網絡,主要用于分類問題,但是截取它的一部分訓練好的網絡用于特征轉換,新生成的特征在語音識別上相比于MFCC特征也有很好的表現。本文主要從深度神經網絡的預訓練、參數調整、系統優(yōu)化方面進行了研究,并在Kaldi平臺上搭建了用于語音特征提取的深度神經網絡,從MFCC特征中提取魯棒性區(qū)分性更強的語音特征,并用這些新特征訓練基于GMM-HMM的聲學模型搭建語音識別系統,最好的DNN網絡與原始MFCC訓練的聲學模型搭建的系統相比,在詞錯誤率和句錯誤率上下降了1.98%和4.21% 2、基于深度神經網絡的聲韻母屬性提取研究 聲韻母屬性屬于語音屬性的一種,它可以看做是語音識別中比聲韻母更小的基元,用這種粒度更小的基元更能細致的描述語音現象,而且這種方法在以前語音基于概率統計的基礎上加入了語音知識的東西,提高系統的識別性能。本文主要研究了語音屬性的基礎理論,并從語音屬性的提取入手,結合了深度學習的原理,搭建了語音屬性提取器,用提取出的語音屬性搭建了基于GMM-HM M和基于DNN-HMM的聲韻母識別器,通過與MFCC搭建的聲韻母識別器比較,在聲韻母識別率上分別有0.65%和1.37%的提升,通過與MFCC搭建的語音識別器比較,在詞識別錯誤率上有5.61%的下降。 3、基于深度學習的聲學建模研究 有監(jiān)督的深度網絡本質上是區(qū)分性模型,通過用建模能力強大的深度網絡取代淺層GMM模型做狀態(tài)輸出,并與HMM模型結合訓練聲學模型。在Kaldi上分別實現了基于GMM-HMM、基于DNN-HMM和基于CNN-HMM,并在863語料上通過實驗證明了基于DNN-HMM和基于CNN-HMM的聲學模型搭建的系統比GMM-HMM的系統在詞識別錯誤率上分別有7.98%和9.01%的下降。并對三種方法進行了比較分析。
【關鍵詞】:語音識別 深度學習 特征提取 聲學建模 深度神經網絡 卷積神經網絡
【學位授予單位】:北京郵電大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TN912.34;TP183
【目錄】:
  • 摘要4-6
  • ABSTRACT6-10
  • 第一章 緒論10-14
  • 1.1 語音識別發(fā)展概述10
  • 1.2 語音識別的發(fā)展與現狀10-11
  • 1.3 深度學習對語音識別的意義11-12
  • 1.4 研究問題及內容12-13
  • 1.4.1 研究問題12
  • 1.4.2 研究內容12-13
  • 1.5 論文結構13-14
  • 第二章 語音識別相關理論研究14-31
  • 2.1 語音識別基本原理14
  • 2.2 聲學特征分析14-15
  • 2.3 聲學模型15-17
  • 2.4 語言模型17-18
  • 2.5 解碼器介紹18-20
  • 2.6 深度學習的基礎理論20-30
  • 2.6.1 深度學習的背景20
  • 2.6.2 深度學習的模型20-22
  • 2.6.3 深度學習的模型構成22-30
  • 2.7 語音識別技術面臨的挑戰(zhàn)30
  • 2.8 本章小結30-31
  • 第三章 基于深度神經網絡的語音特征提取31-40
  • 3.1 深度神經網絡的基本原理31-37
  • 3.1.1 網絡訓練算法32-36
  • 3.1.2 深度神經網絡訓練中用到的技術36-37
  • 3.2 基于深度神經網絡的聲學特征提取實驗37-39
  • 3.2.1 實驗配置37-38
  • 3.2.2 深度特征的提取38-39
  • 3.2.3 實驗的結果39
  • 3.3 本章總結39-40
  • 第四章 基于深度神經網絡的語音屬性的提取40-49
  • 4.1 語音屬性的研究背景40
  • 4.2 語音屬性提取理論基礎40-41
  • 4.3 基于DNN-ASAT的聲韻母識別41-45
  • 4.3.1 聲韻母屬性設計實現41-44
  • 4.3.2 DNN-ASAT的系統實現44-45
  • 4.4 語音屬性提取器實驗45-46
  • 4.4.1 實驗數據準備45
  • 4.4.2 實驗步驟45-46
  • 4.5 實驗結果與分析46-48
  • 4.5.1 實驗結果46-48
  • 4.5.2 實驗結果分析48
  • 4.6 本章小結48-49
  • 第五章 基于深度學習語音識別系統搭建49-55
  • 5.1 深度學習在聲學模型中的應用背景49
  • 5.2 基于深度學習的聲學模型訓練49-51
  • 5.2.1 基于深度神經網路的聲學模型訓練49-50
  • 5.2.2 基于卷積神經網路的聲學模型訓練50-51
  • 5.3 深度學習的聲學模型訓練實驗51-54
  • 5.3.1 實驗步驟51-52
  • 5.3.2 實驗結果分析52-54
  • 5.4 三種方法的比較54
  • 5.5 本章總結54-55
  • 第六章 總結與展望55-57
  • 6.1 課題總結55-56
  • 6.2 未來展望56-57
  • 參考文獻57-59
  • 致謝59-60
  • 作者攻讀學位期間發(fā)表的學術論文目錄60

【參考文獻】

中國期刊全文數據庫 前2條

1 李海峰;李純果;;深度學習結構和算法比較分析[J];河北大學學報(自然科學版);2012年05期

2 余凱;賈磊;陳雨強;徐偉;;深度學習的昨天、今天和明天[J];計算機研究與發(fā)展;2013年09期


  本文關鍵詞:基于深度學習的語音識別應用研究


  更多相關文章: 語音識別 深度學習 特征提取 聲學建模 深度神經網絡 卷積神經網絡


,

本文編號:513312

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/wltx/513312.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶9b7f0***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com