端到端自動語音識別技術研究
發(fā)布時間:2020-12-14 00:11
語言作為人們在人際交往中最主要的溝通途徑,將來必然會成為人機交互與共融的重要橋梁。自動語音識別(ASR)可以表述為通過計算機將人類語音信號轉錄為書面形式的文字輸出的過程,而早自20世紀70年代以來,自動語音識別問題就一直是機器學習界的一個重要研究課題。發(fā)展到現(xiàn)在,盡管傳統(tǒng)的自動語音識別技術仍在被使用,但是解決了傳統(tǒng)框架識別過程繁瑣、難于優(yōu)化等問題的基于深度神經(jīng)網(wǎng)絡的端到端模型在自動語音識別領域正逐漸成為研究熱點與發(fā)展方向。在此背景下,本課題立足于深度神經(jīng)網(wǎng)絡結構框架,對端到端的語音識別技術進行研究。首先,分析當前兩種主流端到端自動語音識別模型—CTC和基于注意力機制的模型,總結了二者存在的問題:1.CTC對輸出單元之間作了相互獨立性假設,但事實上這對上下文緊密相關的語音識別是并不合理的;2.注意力機制下允許不規(guī)則的輸入輸出對齊,但是通常語音識別卻具有嚴格單調對應的輸入輸出。因此,本文提出了一種結合了CTC與注意力機制的端到端自動語音識別模型,并在開源英文語音數(shù)據(jù)集Librispeech識別任務上驗證了模型的有效改進。其次,本文提出了一種新型編碼-解碼結構的端到端自動語音識別模型,基于循...
【文章來源】:北京郵電大學北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:71 頁
【學位級別】:碩士
【部分圖文】:
圖1-2典型的傳統(tǒng)ASR框架??-
現(xiàn)代語音識別系統(tǒng)建立在統(tǒng)計原理的基礎上,由Baker?(1975)和Jelinek??(1976)的工作開創(chuàng),一種source-channel數(shù)學模型或生成統(tǒng)計模型通常用于_??表述語音識別問題。如圖2-1所示,說話者的思想決定了通過他/她的文本生成??器傳遞的源文字序列W。源文本W是通過一個復雜的溝通通道,該通道由說話者??的發(fā)音器官組成,以產(chǎn)生語音波形和語音識別器的語音信號處理部件。最后,??語音解碼器將聲學信號X解碼為單詞序列W,其在理想情況下W十分接近近原始??單詞序列W。??Communication?Channel???i?——;?ij??;??Text?nL?Speech?一*Signal?:、?Speech??Generator?Generator?;?’?Processing?i?’?Decoder????:?1?i??二J:??if?^??w:???u??";x?i?w??Speech?Recognizer??圖2-1語音識別系統(tǒng)的一種source-channel模型[3Q]??典型的實用語音識別系統(tǒng)由圖2-2的虛線框中所示的基本組件組成。應用??程序以解碼器為接口來獲得識別結果,結果又可用于調節(jié)系統(tǒng)中其他組件。聲??學模型包括有關聲學、語音、麥克風和周圍環(huán)境變化、說話者之間的性別和方??言差異等所有與發(fā)出的語音信號相關的的認知表示。語言模型是指系統(tǒng)對可能??構成的單詞、哪些詞屬于高頻詞、以及詞匯以什么順序出現(xiàn)等與文本信息相關??的認知。對于用戶希望表達的語義和意愿,語言模型也可能是有必要去實現(xiàn)的。??在自動語音識別中存在許多不確定性
’?:??圖2-2語音識別系統(tǒng)的基本結構框架[3n??如圖2-2所示,語音信號在信號處理模塊中處理,該信號處理模塊提取解??碼模塊需要的顯著特征向量。根據(jù)輸入特征向量,解碼器使用聲學和語言模型??來生成具有最大后驗概率的單詞序列。在此框架中,解碼器還為Adaptation組??件提供其所需的信息來修改聲學或語言模型,從而可以獲得性能提升。??2.?2語音信號特征提取??特征提取是傳統(tǒng)語音識別系統(tǒng)的一個重要部分。特征提取的目的是壓縮輸??入信號(矢量)的幅度,而不會對語音信號的功率造成任何損害。有多種常用??的特征提取技術。??Continuous?Speech?Wkidowii^?Discrete??一一一一一、f?……'???Frames?Transform?r??Magnitude??Spectrum??—?—......?Me,?Mel??乂el?Inverse?L〇jj?Frequency??Cepstrum?DFT?Warping???一一、.?Spectrum?.??圖2-3特征提取流程圖[32]??圖2-3表示了特征提取流程。在此,從一側輸入連續(xù)語音信號用于加窗過??程。在窗口化過程中
【參考文獻】:
博士論文
[1]基于深度神經(jīng)網(wǎng)絡的語音識別模型研究[D]. 張仕良.中國科學技術大學 2017
本文編號:2915435
【文章來源】:北京郵電大學北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:71 頁
【學位級別】:碩士
【部分圖文】:
圖1-2典型的傳統(tǒng)ASR框架??-
現(xiàn)代語音識別系統(tǒng)建立在統(tǒng)計原理的基礎上,由Baker?(1975)和Jelinek??(1976)的工作開創(chuàng),一種source-channel數(shù)學模型或生成統(tǒng)計模型通常用于_??表述語音識別問題。如圖2-1所示,說話者的思想決定了通過他/她的文本生成??器傳遞的源文字序列W。源文本W是通過一個復雜的溝通通道,該通道由說話者??的發(fā)音器官組成,以產(chǎn)生語音波形和語音識別器的語音信號處理部件。最后,??語音解碼器將聲學信號X解碼為單詞序列W,其在理想情況下W十分接近近原始??單詞序列W。??Communication?Channel???i?——;?ij??;??Text?nL?Speech?一*Signal?:、?Speech??Generator?Generator?;?’?Processing?i?’?Decoder????:?1?i??二J:??if?^??w:???u??";x?i?w??Speech?Recognizer??圖2-1語音識別系統(tǒng)的一種source-channel模型[3Q]??典型的實用語音識別系統(tǒng)由圖2-2的虛線框中所示的基本組件組成。應用??程序以解碼器為接口來獲得識別結果,結果又可用于調節(jié)系統(tǒng)中其他組件。聲??學模型包括有關聲學、語音、麥克風和周圍環(huán)境變化、說話者之間的性別和方??言差異等所有與發(fā)出的語音信號相關的的認知表示。語言模型是指系統(tǒng)對可能??構成的單詞、哪些詞屬于高頻詞、以及詞匯以什么順序出現(xiàn)等與文本信息相關??的認知。對于用戶希望表達的語義和意愿,語言模型也可能是有必要去實現(xiàn)的。??在自動語音識別中存在許多不確定性
’?:??圖2-2語音識別系統(tǒng)的基本結構框架[3n??如圖2-2所示,語音信號在信號處理模塊中處理,該信號處理模塊提取解??碼模塊需要的顯著特征向量。根據(jù)輸入特征向量,解碼器使用聲學和語言模型??來生成具有最大后驗概率的單詞序列。在此框架中,解碼器還為Adaptation組??件提供其所需的信息來修改聲學或語言模型,從而可以獲得性能提升。??2.?2語音信號特征提取??特征提取是傳統(tǒng)語音識別系統(tǒng)的一個重要部分。特征提取的目的是壓縮輸??入信號(矢量)的幅度,而不會對語音信號的功率造成任何損害。有多種常用??的特征提取技術。??Continuous?Speech?Wkidowii^?Discrete??一一一一一、f?……'???Frames?Transform?r??Magnitude??Spectrum??—?—......?Me,?Mel??乂el?Inverse?L〇jj?Frequency??Cepstrum?DFT?Warping???一一、.?Spectrum?.??圖2-3特征提取流程圖[32]??圖2-3表示了特征提取流程。在此,從一側輸入連續(xù)語音信號用于加窗過??程。在窗口化過程中
【參考文獻】:
博士論文
[1]基于深度神經(jīng)網(wǎng)絡的語音識別模型研究[D]. 張仕良.中國科學技術大學 2017
本文編號:2915435
本文鏈接:http://www.sikaile.net/kejilunwen/xinxigongchenglunwen/2915435.html