天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于雙重數(shù)據(jù)增強策略的音頻分類方法

發(fā)布時間:2021-07-23 21:20
  卷積神經(jīng)網(wǎng)絡(luò)模型作為音頻特征提取器具有較好的應(yīng)用效果,但該類模型的訓(xùn)練過程對數(shù)據(jù)量要求比較高。針對這一問題,本文提出一種基于雙重數(shù)據(jù)增強策略的音頻分類方法。首先采用傳統(tǒng)音頻數(shù)據(jù)增強方法(旋轉(zhuǎn)、調(diào)音、變調(diào)、加噪),并將增強后的數(shù)據(jù)轉(zhuǎn)化為語譜圖,再采用隨機均值替換法進行譜圖增強。在此基礎(chǔ)上訓(xùn)練InceptionResnetV2神經(jīng)網(wǎng)絡(luò)模型作為音頻特征提取器,最后訓(xùn)練隨機森林模型作為分類器完成音頻分類任務(wù)。實驗結(jié)果表明,與已有方法相比,采用雙重數(shù)據(jù)增強策略可明顯提升音頻分類精度,并且訓(xùn)練出的特征提取模型具有較強的泛化能力。 

【文章來源】:武漢科技大學(xué)學(xué)報. 2020,43(02)北大核心

【文章頁數(shù)】:6 頁

【部分圖文】:

基于雙重數(shù)據(jù)增強策略的音頻分類方法


DDA-IRRF方法的框架結(jié)構(gòu)

語譜圖,語譜圖,數(shù)據(jù),卷積


卷積神經(jīng)網(wǎng)絡(luò)屬于前饋神經(jīng)網(wǎng)絡(luò),在提取特征上具有很好的表現(xiàn),能夠挖掘出數(shù)據(jù)的內(nèi)在結(jié)構(gòu)規(guī)律。本文使用Google研究團隊推出的卷積神經(jīng)網(wǎng)絡(luò)模型Inception_Resnet_V2(見圖3)[15]來完成音頻高層特征的提取工作。其中,Stem模塊采用多次卷積操作與兩次池化操作,是進入Inception結(jié)構(gòu)的預(yù)處理過程,可以防止瓶頸問題。Inception_resnet模塊則主要完成特征維度上的提取工作,引入的殘差結(jié)構(gòu)可有效防止梯度下降問題。Inception_resnet模塊后面對應(yīng)的Reduction模塊采用了并行結(jié)構(gòu),主要作用仍是防止瓶頸問題。Inception_Resnet_V2模型的最后一層采用的是Softmax分類器。圖3 Inception_Resnet_V2模型結(jié)構(gòu)

語譜圖,模型結(jié)構(gòu),語譜圖,分類器


Inception_Resnet_V2模型結(jié)構(gòu)

【參考文獻】:
期刊論文
[1]基于深度學(xué)習(xí)與隨機森林的高維數(shù)據(jù)特征選擇[J]. 馮曉榮,瞿國慶.  計算機工程與設(shè)計. 2019(09)
[2]理解數(shù)字聲音——基于一般音頻/環(huán)境聲的計算機聽覺綜述[J]. 李偉,李碩.  復(fù)旦學(xué)報(自然科學(xué)版). 2019(03)
[3]基于神經(jīng)形態(tài)電路的音頻場景特征提取及識別技術(shù)[J]. 王雨辰,胡華.  計算機應(yīng)用研究. 2018(12)
[4]基于Kinect輔助的機器人帶噪語音識別[J]. 王建榮,高永春,張句,魏建國,黨建武.  清華大學(xué)學(xué)報(自然科學(xué)版). 2017(09)

碩士論文
[1]音頻場景檢測機制的設(shè)計與實施[D]. 劉若瀾.北京郵電大學(xué) 2017



本文編號:3300059

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/wltx/3300059.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶edd6a***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com