天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 信息工程論文 >

基于深度學習的聲音場景檢測的研究

發(fā)布時間:2021-12-30 14:13
  聲音載有人類日常環(huán)境和在其發(fā)生事件的大量信息,人類可以感受到自己所處的聲音場景(海邊,大街等),并識別出各個聲源(海浪,汽車聲等)。音頻信號自動檢測技術(shù)在音頻文件的內(nèi)容搜索和移動設(shè)備的情境感知等方面都有著廣闊的應(yīng)用前景,故而人們對該項技術(shù)展開了一系列研究。但由于多個聲源疊加或環(huán)境噪音干擾等原因,基于機器學習的聲音自動檢測技術(shù)的可靠性一直都不高,所以人類在機器學習領(lǐng)域仍然需要大量的研究才能準確地識別現(xiàn)實場景中的單個聲源和聲音場景。聲音場景識別指的是人類或人工系統(tǒng)從流媒體或音頻記錄中識別音頻內(nèi)容(標簽)的任務(wù),傳統(tǒng)的聲音識別問題往往是通過數(shù)字信號處理或者簡單的分類器解決,而現(xiàn)在隨著深度學習的普及,傳統(tǒng)的識別方法需改善應(yīng)對未來的應(yīng)用需求。本文主要的研究內(nèi)容是使用深度學習的方法識別聲音場景。主要實現(xiàn)過程是使用改進后的深層卷積神經(jīng)網(wǎng)絡(luò)組建一個多特征的弱學習器組,再使用集成學習策略組建強學習器,以構(gòu)建一個用于聲場識別任務(wù)的基于多譜圖集成學習系統(tǒng)。由于深度學習本身對數(shù)據(jù)量是有一定要求的,所以為了解決音頻源文件數(shù)量不足的問題,本文首先嘗試對音頻文件進行數(shù)據(jù)擴充。具體做法上,使用了生成式對抗神經(jīng)網(wǎng)絡(luò)的拓... 

【文章來源】:成都理工大學四川省

【文章頁數(shù)】:81 頁

【學位級別】:碩士

【部分圖文】:

基于深度學習的聲音場景檢測的研究


卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖

基線,音頻,波形文件,特征提取


聲場識別的基線系統(tǒng)的主體結(jié)構(gòu)與大多聚類深度學習任務(wù)類似,從前到后的流程為原始數(shù)據(jù)集輸入,數(shù)據(jù)擴充,特征提取,訓練學習器,獲得分類器,評估結(jié)果,如圖2-1:圖 2-1 基線系統(tǒng)的基本結(jié)構(gòu)圖如圖2-1中流程所示,在擁有了源音頻數(shù)據(jù)集后,可能由于音頻的數(shù)據(jù)不足的問題進行數(shù)據(jù)擴充,既可以對原始數(shù)據(jù)(源音頻波形文件)進行學習創(chuàng)造新的波形文件,也可以對音頻特征進行學習以創(chuàng)造音頻特征的擴充數(shù)據(jù)。對于音頻的特征提取,本章將使用兩種方法,其一是經(jīng)典的聲學特征處理方法——梅爾頻率倒譜系數(shù)(MFCC),由Davis et al.(1980)提出,將在本章第3節(jié)中闡述;其二是一種較新的音頻特征提取方法——諧波沖擊分離,由Fitzgeral(2010)提出

幀提取,分幀,離散傅里葉變換,時域信號


圖2-2 MFCC實現(xiàn)流程圖(1)將信號進行分幀處理,為每個幀提取一組梅爾頻譜系數(shù)即時域信號S ( n )。將所有樣本的時域信號 S ( n )組合成 ( )iS n 。對 ( )iS n 計算離散傅里葉變換(DFT),得 ( )iS k ,其中 i 表示相對幀數(shù); ( )iP k 是幀 i 的功率譜。


本文編號:3558362

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/xinxigongchenglunwen/3558362.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶6f057***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com