當(dāng)前位置：主頁 > 科技論文 > 網(wǎng)絡(luò)通信論文 >

基于雙重數(shù)據(jù)增強策略的音頻分類方法

發(fā)布時間：2021-07-23 21:20

　　卷積神經(jīng)網(wǎng)絡(luò)模型作為音頻特征提取器具有較好的應(yīng)用效果,但該類模型的訓(xùn)練過程對數(shù)據(jù)量要求比較高。針對這一問題,本文提出一種基于雙重數(shù)據(jù)增強策略的音頻分類方法。首先采用傳統(tǒng)音頻數(shù)據(jù)增強方法（旋轉(zhuǎn)、調(diào)音、變調(diào)、加噪）,并將增強后的數(shù)據(jù)轉(zhuǎn)化為語譜圖,再采用隨機均值替換法進行譜圖增強。在此基礎(chǔ)上訓(xùn)練Inception_Resnet_V2神經(jīng)網(wǎng)絡(luò)模型作為音頻特征提取器,最后訓(xùn)練隨機森林模型作為分類器完成音頻分類任務(wù)。實驗結(jié)果表明,與已有方法相比,采用雙重數(shù)據(jù)增強策略可明顯提升音頻分類精度,并且訓(xùn)練出的特征提取模型具有較強的泛化能力。

【文章來源】：武漢科技大學(xué)學(xué)報. 2020,43(02)北大核心

【文章頁數(shù)】：6 頁

【部分圖文】：

DDA-IRRF方法的框架結(jié)構(gòu)

語譜圖,語譜圖,數(shù)據(jù),卷積

卷積神經(jīng)網(wǎng)絡(luò)屬于前饋神經(jīng)網(wǎng)絡(luò),在提取特征上具有很好的表現(xiàn),能夠挖掘出數(shù)據(jù)的內(nèi)在結(jié)構(gòu)規(guī)律。本文使用Google研究團隊推出的卷積神經(jīng)網(wǎng)絡(luò)模型Inception＿Resnet＿V2（見圖3)[15]來完成音頻高層特征的提取工作。其中，Stem模塊采用多次卷積操作與兩次池化操作，是進入Inception結(jié)構(gòu)的預(yù)處理過程，可以防止瓶頸問題。Inception＿resnet模塊則主要完成特征維度上的提取工作，引入的殘差結(jié)構(gòu)可有效防止梯度下降問題。Inception＿resnet模塊后面對應(yīng)的Reduction模塊采用了并行結(jié)構(gòu)，主要作用仍是防止瓶頸問題。Inception＿Resnet＿V2模型的最后一層采用的是Softmax分類器。圖3 Inception_Resnet_V2模型結(jié)構(gòu)

語譜圖,模型結(jié)構(gòu),語譜圖,分類器

Inception_Resnet_V2模型結(jié)構(gòu)

【參考文獻】：
期刊論文
[1]基于深度學(xué)習(xí)與隨機森林的高維數(shù)據(jù)特征選擇[J]. 馮曉榮,瞿國慶.  計算機工程與設(shè)計. 2019(09)
[2]理解數(shù)字聲音——基于一般音頻/環(huán)境聲的計算機聽覺綜述[J]. 李偉,李碩.  復(fù)旦學(xué)報(自然科學(xué)版). 2019(03)
[3]基于神經(jīng)形態(tài)電路的音頻場景特征提取及識別技術(shù)[J]. 王雨辰,胡華.  計算機應(yīng)用研究. 2018(12)
[4]基于Kinect輔助的機器人帶噪語音識別[J]. 王建榮,高永春,張句,魏建國,黨建武.  清華大學(xué)學(xué)報(自然科學(xué)版). 2017(09)

碩士論文
[1]音頻場景檢測機制的設(shè)計與實施[D]. 劉若瀾.北京郵電大學(xué) 2017

本文編號：3300059

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://www.sikaile.net/kejilunwen/wltx/3300059.html

上一篇：捷聯(lián)慣導(dǎo)傳遞對準(zhǔn)性能優(yōu)化關(guān)鍵技術(shù)研究
下一篇：電磁空心光束在湍流大氣中的斜程傳輸特性

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于雙重數(shù)據(jù)增強策略的音頻分類方法