語音識別技術(shù)在智能審計中的運用初探
發(fā)布時間:2021-12-16 05:01
本文從人工智能領(lǐng)域及其中語音識別技術(shù)的發(fā)展背景與應(yīng)用情況入手,結(jié)合非結(jié)構(gòu)化數(shù)據(jù),分析闡述現(xiàn)有語音識別技術(shù)基礎(chǔ)模型及特點,探析語音識別技術(shù)在商業(yè)銀行智能審計領(lǐng)域運用的可能性。
【文章來源】:中國內(nèi)部審計. 2020,(01)
【文章頁數(shù)】:7 頁
【部分圖文】:
批量PCM轉(zhuǎn)換
3.識別工具的語音識別模塊采用百度人工智能開放平臺中的語音識別引擎進行語音識別,該引擎在希爾貝殼中文普通話開源語音語料庫的基礎(chǔ)上訓(xùn)練并提供調(diào)用接口,在經(jīng)過了DNN等當代流行的語音識別模型的數(shù)年迭代發(fā)展后,已達到很好的識別效果。在自研識別工具中選中需要識別的PCM文件,即可對單個語音音頻進行識別,識別速度較快,識別率在可接受范圍內(nèi),并且可以對識別的結(jié)果進行半結(jié)構(gòu)化的文本文件保存,如圖4所示。此外,識別工具支持批量PCM音頻文件的識別,并在批量識別完成后自動將每個語音文件對應(yīng)的識別結(jié)果在特定的目錄中保存為相應(yīng)的半結(jié)構(gòu)化文本文件,以供后續(xù)分析處理,如圖5所示。圖5 語音識別批量識別
2.在識別工具的音頻識別模塊中對轉(zhuǎn)換好的PCM文件進行語音活動檢測(Voice Activity Detection,VAD)切分。在切分前因“雙錄”錄音含有客戶敏感信息故采用Audition軟件人工截去客戶敏感信息。由于語音識別底層引擎并非直接對任意時長的語音進行識別,而是對數(shù)十秒內(nèi)的語音段進行識別,所以需要對長段語音進行切分。而語音活動檢測就是對語音端點(語音邊界)進行檢測的技術(shù),即在語音的靜音處進行截斷。筆者自研的識別工具語音活動檢測模塊采用的是Google開源音視頻流項目WebRTC中的語音活動檢測函數(shù)模塊,主要思路是對音頻的每一幀計算其高斯概率分布并以此判斷該幀是靜音還是有語音存在,進而在連續(xù)靜音后遇到語音的幀之前或連續(xù)語音后遇到靜音的幀之后進行切分,以此完成對長段語音的切分。語音活動檢測模塊將切分好的小段語音音頻提供給音頻識別引擎進行識別。圖3 批量PCM轉(zhuǎn)換
【參考文獻】:
期刊論文
[1]基于OCR的審計技術(shù)創(chuàng)新與實現(xiàn)[J]. 汪莉,葉健彪. 中國內(nèi)部審計. 2019(04)
碩士論文
[1]基于DNN的語言識別系統(tǒng)的研究與實現(xiàn)[D]. 呂赫.電子科技大學(xué) 2017
本文編號:3537533
【文章來源】:中國內(nèi)部審計. 2020,(01)
【文章頁數(shù)】:7 頁
【部分圖文】:
批量PCM轉(zhuǎn)換
3.識別工具的語音識別模塊采用百度人工智能開放平臺中的語音識別引擎進行語音識別,該引擎在希爾貝殼中文普通話開源語音語料庫的基礎(chǔ)上訓(xùn)練并提供調(diào)用接口,在經(jīng)過了DNN等當代流行的語音識別模型的數(shù)年迭代發(fā)展后,已達到很好的識別效果。在自研識別工具中選中需要識別的PCM文件,即可對單個語音音頻進行識別,識別速度較快,識別率在可接受范圍內(nèi),并且可以對識別的結(jié)果進行半結(jié)構(gòu)化的文本文件保存,如圖4所示。此外,識別工具支持批量PCM音頻文件的識別,并在批量識別完成后自動將每個語音文件對應(yīng)的識別結(jié)果在特定的目錄中保存為相應(yīng)的半結(jié)構(gòu)化文本文件,以供后續(xù)分析處理,如圖5所示。圖5 語音識別批量識別
2.在識別工具的音頻識別模塊中對轉(zhuǎn)換好的PCM文件進行語音活動檢測(Voice Activity Detection,VAD)切分。在切分前因“雙錄”錄音含有客戶敏感信息故采用Audition軟件人工截去客戶敏感信息。由于語音識別底層引擎并非直接對任意時長的語音進行識別,而是對數(shù)十秒內(nèi)的語音段進行識別,所以需要對長段語音進行切分。而語音活動檢測就是對語音端點(語音邊界)進行檢測的技術(shù),即在語音的靜音處進行截斷。筆者自研的識別工具語音活動檢測模塊采用的是Google開源音視頻流項目WebRTC中的語音活動檢測函數(shù)模塊,主要思路是對音頻的每一幀計算其高斯概率分布并以此判斷該幀是靜音還是有語音存在,進而在連續(xù)靜音后遇到語音的幀之前或連續(xù)語音后遇到靜音的幀之后進行切分,以此完成對長段語音的切分。語音活動檢測模塊將切分好的小段語音音頻提供給音頻識別引擎進行識別。圖3 批量PCM轉(zhuǎn)換
【參考文獻】:
期刊論文
[1]基于OCR的審計技術(shù)創(chuàng)新與實現(xiàn)[J]. 汪莉,葉健彪. 中國內(nèi)部審計. 2019(04)
碩士論文
[1]基于DNN的語言識別系統(tǒng)的研究與實現(xiàn)[D]. 呂赫.電子科技大學(xué) 2017
本文編號:3537533
本文鏈接:http://www.sikaile.net/jingjilunwen/sjlw/3537533.html
最近更新
教材專著