天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深度學習的移動端語音識別系統(tǒng)設計

發(fā)布時間:2024-03-04 04:23
  隨著深度學習技術(shù)研究的深入,語音識別同樣已經(jīng)完成了從傳統(tǒng)模型到深度學習的過渡,本文主要實現(xiàn)移動端離線狀態(tài)下的語音識別并提高語音識別的精度。文中采用深度學習的方式,將在電腦上訓練好的模型移植到樹莓派3b+上進行語音識別操作。項目整體結(jié)構(gòu)可以分為聲學模型及語言模型兩個部分,同語音識別中其他主流模型進行對比測試后,得到的結(jié)論是聲學模型DFCNN和語言模型Transformer的編碼器部分都適合移植于嵌入式端,在成本遠低于市場上既有語音識別產(chǎn)品的情況下,識別效果和速度都非常接近。

【文章頁數(shù)】:5 頁

【部分圖文】:

圖1語音識別系統(tǒng)框圖

圖1語音識別系統(tǒng)框圖

預測時利用優(yōu)化后的DFCNN模型生成輸入語音對應的拼音后,再通過Transformer編碼器生成的語言模型進行拼音-漢字轉(zhuǎn)換,最后得到預測出的漢字。語音識別系統(tǒng)框圖如圖1所示。1.1音頻信號預處理


圖2音頻樣本數(shù)據(jù)預處理流程圖

圖2音頻樣本數(shù)據(jù)預處理流程圖

1.1音頻信號預處理音頻信號的預處理過程主要分為三個步驟:預加重、分幀和加窗。音頻預處理流程如圖2所示。


圖3幀長與幀移關(guān)系圖

圖3幀長與幀移關(guān)系圖

經(jīng)過研究后發(fā)現(xiàn)15~30ms間的音頻信號幾乎沒有波動,因此需要對音頻信號進行分幀操作,最好的辦法就是通過加窗將音頻信號轉(zhuǎn)換為大量的短時平穩(wěn)信號,幀長與幀移的關(guān)系如圖3所示。(3)加窗


圖4語譜圖的生成過程

圖4語譜圖的生成過程

由前文可知,音頻信號經(jīng)過預處理之后仍需要進行去噪取模取對數(shù)操作,具體的語譜圖生成過程如圖4所示。DFCNN中通過卷積神經(jīng)網(wǎng)絡對圖像進行特征值提取,而本設計采用同樣的方法將音頻信號轉(zhuǎn)換為語譜圖。將預處理后得到的時域音頻信號轉(zhuǎn)換為語譜圖,需對信號進行短時離散傅里葉變換,計算方法如下:



本文編號:3918892

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/wltx/3918892.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶b5b40***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com