天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

深度學習語音識別系統(tǒng)中的若干建模問題研究

發(fā)布時間:2021-05-19 05:16
  語音作為人類交流的自然方式,其作為人機交互的手段擁有的先天優(yōu)勢。自動語音識別要為了讓計算機能夠“聽懂”人類的語音,實現(xiàn)由語音序列向文本序列的轉(zhuǎn)化。伴隨著深度學習發(fā)展,基于深度神經(jīng)網(wǎng)絡(luò)的語音識別如今已經(jīng)成為主流,F(xiàn)在語音識別后端建模有兩種框架:混合和端到端架構(gòu)。在此背景下,本論文集中在兩種架構(gòu)下語音識別的若干建模問題研究。一方面,在混合架構(gòu)下針對建模中的實用性問題(如時延問題,噪聲魯棒性問題)進行研究,‘減’少實際應(yīng)用場景(如時延要求、噪聲)對性能的影響;另一方面,針對端到端語音識別架構(gòu)的不足,研究目前端到端模型的合理性問題(如注意力向量優(yōu)化和多層級標簽建模)。通過在模型搭建中加入‘低成本’但有效信息(如后驗信息、多層級標簽信息),為識別性能做‘加’法。首先、針對語音識別系統(tǒng)的時延問題,本文研究基于長短期記憶(Long Short Term Memory,LSTM)網(wǎng)絡(luò)的在線語音識別聲學建模。單向LSTM網(wǎng)絡(luò)結(jié)構(gòu)無時延但缺乏對未來時序的利用,雙向LSTM網(wǎng)絡(luò)充分利用了上下文時序信息但存在高時延的缺點。針對在線語音識別聲學建模的高性能、時延可控的要求,本文提出了一種基于注意力機制的LSTM... 

【文章來源】:中國科學技術(shù)大學安徽省 211工程院校 985工程院校

【文章頁數(shù)】:130 頁

【學位級別】:博士

【文章目錄】:
摘要
ABSTRACT
第1章 緒論
    1.1 語音識別
        1.1.1語音識別系統(tǒng)劃分
        1.1.2 語音識別歷史回顧
        1.1.3 語音識別系統(tǒng)結(jié)構(gòu)
    1.2 深度學習
        1.2.1 深度學習的歷史回顧
        1.2.2 常見的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
    1.3 基于深度學習的語音識別
        1.3.1 基于深度學習的混合架構(gòu)語音識別
        1.3.2 基于深度學習的端到端架構(gòu)語音識別
        1.3.3 深度學習語音識別系統(tǒng)中的建模問題
    1.4 本文的主要研究內(nèi)容及組織結(jié)構(gòu)
        1.4.1 本文的主要內(nèi)容
        1.4.2 本文的組織結(jié)構(gòu)
    1.5 語音識別數(shù)據(jù)庫簡介
第2章 時序注意機制的LSTM聲學模型與時延問題研究
    2.1 前言
    2.2 前饋序列記憶神經(jīng)網(wǎng)絡(luò)
    2.3 基于未來時序注意機制的單向LSTM模型
    2.4 實驗結(jié)果與分析
    2.5 本章小結(jié)
第3章 稠密殘差網(wǎng)絡(luò)聲學模型與噪聲魯棒性問題研究
    3.1 前言
    3.2 殘差網(wǎng)絡(luò)與稠密網(wǎng)絡(luò)
        3.2.1 殘差網(wǎng)絡(luò)簡介
        3.2.2 稠密網(wǎng)絡(luò)簡介
        3.2.3 兩種網(wǎng)絡(luò)的結(jié)構(gòu)對比
    3.3 基于稠密殘差網(wǎng)絡(luò)的聲學模型
        3.3.1 稠密殘差層結(jié)構(gòu)
        3.3.2 基于稠密殘差網(wǎng)絡(luò)的聲學模型搭建
        3.3.3 討論:模型配置
    3.4 實驗結(jié)果與分析
        3.4.1 CHiME4:多通道語音識別任務(wù)
        3.4.2 模型的噪聲魯棒性分析
    3.5 本章小結(jié)
第4章 擴展后驗注意力模型與注意力向量優(yōu)化問題
    4.1 前言
    4.2 編碼-解碼模型相關(guān)內(nèi)容介紹
        4.2.1 曝光偏差和計劃采樣方法
        4.2.2 后驗注意力模型介紹
    4.3 基于擴展后驗注意力機制的端到端語音識別
        4.3.1 擴展后驗注意力模型結(jié)構(gòu)
        4.3.2 曝光偏差問題與解決方法
    4.4 實驗結(jié)果與分析
        4.4.1 實驗驗證:后驗優(yōu)化注意力分布
        4.4.2 實驗驗證:曝光誤差
        4.4.3 實驗總結(jié):EPAM模型最終性能表現(xiàn)
    4.5 本章小結(jié)
第5章 多層級標識序列對齊方法與多層級標簽建模
    5.1 前言
    5.2 語音識別任務(wù)中的多層級標識
        5.2.1 多種文本序列表示形式
        5.2.2 常見的子詞分割算法
        5.2.3 現(xiàn)有端到端語音識別建模研究工作
    5.3 基于序列間對齊映射的多層級端到端語音識別建模
        5.3.1 多層級標識間的對齊映射關(guān)系
        5.3.2 對齊映射關(guān)系與端到端模型結(jié)構(gòu)
        5.3.3 序列間對齊映射關(guān)系與端到端解碼過程
    5.4 實驗結(jié)果與分析
        5.4.1 模型的性能表現(xiàn)
        5.4.2 模型的可視化與分析
        5.4.3 與已有工作的比較
    5.5 本章小結(jié)
第6章 總結(jié)
    6.1 本文的主要貢獻與創(chuàng)新點
    6.2 后續(xù)的研究工作
參考文獻
致謝
在讀期間發(fā)表的學術(shù)論文與取得的研究成果



本文編號:3195187

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/shoufeilunwen/xxkjbs/3195187.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶24e3c***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com