基于深度學習的音頻事件識別研究
發(fā)布時間:2021-07-24 12:03
音頻事件識別作為音頻研究領域的基礎核心任務,是目前熱門的音頻研究方向如聲音場景分析、音頻事件檢測、音頻自動標注等任務的關鍵部分。對于音頻事件識別系統(tǒng)的構建,有一些本質(zhì)的難點需要解決,即音頻分布的隨機性和音頻事件本身的多樣性。研究的理論目標為分析這些根本問題,試圖提出一些解決問題的思路,研究的實踐目標則是提出適合于音頻事件識別這個任務的獨特的系統(tǒng)結構。本論文通過綜合前人的廣泛研究成果,以及機器學習、深度學習、語音識別、人耳感知等領域的知識,從音頻的本質(zhì)出發(fā),提出了分層的屬性理論算法框架,并主要從兩方面著手研究。1.研究了基于卷積神經(jīng)網(wǎng)絡的音頻事件識別對卷積神經(jīng)網(wǎng)絡的研究,主要目的是解決音頻事件的多樣性和隨機性,參考國內(nèi)外對音頻網(wǎng)絡設計的普適與類別依賴思想,本文對輸入和網(wǎng)絡兩個模塊都進行了詳細的探討,并得出了一些對更深入研究有指導意義的結論:輸入方面,嘗試了CQT譜、原始音頻,設計了Mel譜、激勵源和聲道譜等,通過實驗論證得出最佳輸入Mel聲譜;網(wǎng)絡方面,重點對音頻的視野進行了研究,主要從卷積視野、網(wǎng)絡深度視野著手;之后優(yōu)化網(wǎng)絡結構,考慮了分層信息網(wǎng)絡、殘差網(wǎng)絡、LSTM網(wǎng)絡的的引入等,最...
【文章來源】:北京郵電大學北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:79 頁
【學位級別】:碩士
【部分圖文】:
圖2-1音頻識別算法框架??
;在網(wǎng)絡方面,由于CNN網(wǎng)絡具有頻移不變性,能夠有效的減輕由聲源境之間的差異引起的頻譜偏移,另一方面其強大的特征提取能力能夠解決分布隨機性的問題,因此重點嘗試適配適用于音頻識別的CNN網(wǎng)絡。??.2?CNN最佳輸入研究??3.1小節(jié)表明本章的網(wǎng)絡主要基于CNN,本節(jié)主要探討CNN前的各種可能性。??.2.1?原始首頻??音頻事件識別的最原始輸入是一條一條的音頻流,但是在正式輸入到深之前,還需要進行輸入的變換,以期望能夠讓網(wǎng)絡從變換后的輸入里更好學習到分類信息。??國內(nèi)外的研究也時常使用未經(jīng)加工的原始音頻數(shù)據(jù)實驗,本課題作為對,也探討了原始音頻作為輸入的情況,例如,典型的槍聲的原始輸入波形所示:??
??聲譜圖的提取如下圖3-1所示。聲譜圖是聲譜特征的可視化,是一種隨時間??而變化的頻譜圖,其提取的基本流程為對音頻文件進行信號變化,進行短時傅里??葉變換之后,將其按照灰度和顏色映射關系,即可繪制成聲譜圖:??音頻一_^分幀加窗?^傅里葉變換?I?L〇Q_度值??數(shù)據(jù)?預處理?STFT?|?L〇9EJ5A????\?)?\?y?V,?,?J??_—??r?'?、??聲譜圖??灰度與顏色映射?????J?V???)??圖3-2聲譜圖的生成流程??本文選用具體的幾種類別的聲譜圖進行分析,分別選用了嬰兒哭泣聲、狗叫??-上:AA*??尸等:??cir^??—ac**?*?...、??、■麟、?-?'?^?^??(a)嬰兒哭泣聲?(b)女性尖叫聲??f?I?i?i?>?^?*?i?;?:?^???;?:?;?I??鱗。担В??:?fe??■??(c)腳步聲?(d)典型槍聲??圖3-3四種典型的聲譜圖??聲譜橫軸為時間,縱軸為頻率。圖中的橫紋對應短時譜的凸點,即共振峰;??豎紋的單條為基音,條紋的起點相當于激勵源脈沖的起點,條紋之間的距離代表??基音周期
【參考文獻】:
期刊論文
[1]基于MFCC和短時能量混合的異常聲音識別算法[J]. 呂霄云,王宏霞. 計算機應用. 2010(03)
碩士論文
[1]場景依賴的關鍵音頻事件檢測[D]. 齊曉旭.北京郵電大學 2013
本文編號:3300616
【文章來源】:北京郵電大學北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:79 頁
【學位級別】:碩士
【部分圖文】:
圖2-1音頻識別算法框架??
;在網(wǎng)絡方面,由于CNN網(wǎng)絡具有頻移不變性,能夠有效的減輕由聲源境之間的差異引起的頻譜偏移,另一方面其強大的特征提取能力能夠解決分布隨機性的問題,因此重點嘗試適配適用于音頻識別的CNN網(wǎng)絡。??.2?CNN最佳輸入研究??3.1小節(jié)表明本章的網(wǎng)絡主要基于CNN,本節(jié)主要探討CNN前的各種可能性。??.2.1?原始首頻??音頻事件識別的最原始輸入是一條一條的音頻流,但是在正式輸入到深之前,還需要進行輸入的變換,以期望能夠讓網(wǎng)絡從變換后的輸入里更好學習到分類信息。??國內(nèi)外的研究也時常使用未經(jīng)加工的原始音頻數(shù)據(jù)實驗,本課題作為對,也探討了原始音頻作為輸入的情況,例如,典型的槍聲的原始輸入波形所示:??
??聲譜圖的提取如下圖3-1所示。聲譜圖是聲譜特征的可視化,是一種隨時間??而變化的頻譜圖,其提取的基本流程為對音頻文件進行信號變化,進行短時傅里??葉變換之后,將其按照灰度和顏色映射關系,即可繪制成聲譜圖:??音頻一_^分幀加窗?^傅里葉變換?I?L〇Q_度值??數(shù)據(jù)?預處理?STFT?|?L〇9EJ5A????\?)?\?y?V,?,?J??_—??r?'?、??聲譜圖??灰度與顏色映射?????J?V???)??圖3-2聲譜圖的生成流程??本文選用具體的幾種類別的聲譜圖進行分析,分別選用了嬰兒哭泣聲、狗叫??-上:AA*??尸等:??cir^??—ac**?*?...、??、■麟、?-?'?^?^??(a)嬰兒哭泣聲?(b)女性尖叫聲??f?I?i?i?>?^?*?i?;?:?^???;?:?;?I??鱗。担В??:?fe??■??(c)腳步聲?(d)典型槍聲??圖3-3四種典型的聲譜圖??聲譜橫軸為時間,縱軸為頻率。圖中的橫紋對應短時譜的凸點,即共振峰;??豎紋的單條為基音,條紋的起點相當于激勵源脈沖的起點,條紋之間的距離代表??基音周期
【參考文獻】:
期刊論文
[1]基于MFCC和短時能量混合的異常聲音識別算法[J]. 呂霄云,王宏霞. 計算機應用. 2010(03)
碩士論文
[1]場景依賴的關鍵音頻事件檢測[D]. 齊曉旭.北京郵電大學 2013
本文編號:3300616
本文鏈接:http://www.sikaile.net/kejilunwen/xinxigongchenglunwen/3300616.html
最近更新
教材專著