基于雙重數(shù)據(jù)增強策略的音頻分類方法
發(fā)布時間:2021-07-23 21:20
卷積神經(jīng)網(wǎng)絡(luò)模型作為音頻特征提取器具有較好的應(yīng)用效果,但該類模型的訓(xùn)練過程對數(shù)據(jù)量要求比較高。針對這一問題,本文提出一種基于雙重數(shù)據(jù)增強策略的音頻分類方法。首先采用傳統(tǒng)音頻數(shù)據(jù)增強方法(旋轉(zhuǎn)、調(diào)音、變調(diào)、加噪),并將增強后的數(shù)據(jù)轉(zhuǎn)化為語譜圖,再采用隨機均值替換法進行譜圖增強。在此基礎(chǔ)上訓(xùn)練InceptionResnetV2神經(jīng)網(wǎng)絡(luò)模型作為音頻特征提取器,最后訓(xùn)練隨機森林模型作為分類器完成音頻分類任務(wù)。實驗結(jié)果表明,與已有方法相比,采用雙重數(shù)據(jù)增強策略可明顯提升音頻分類精度,并且訓(xùn)練出的特征提取模型具有較強的泛化能力。
【文章來源】:武漢科技大學(xué)學(xué)報. 2020,43(02)北大核心
【文章頁數(shù)】:6 頁
【部分圖文】:
DDA-IRRF方法的框架結(jié)構(gòu)
卷積神經(jīng)網(wǎng)絡(luò)屬于前饋神經(jīng)網(wǎng)絡(luò),在提取特征上具有很好的表現(xiàn),能夠挖掘出數(shù)據(jù)的內(nèi)在結(jié)構(gòu)規(guī)律。本文使用Google研究團隊推出的卷積神經(jīng)網(wǎng)絡(luò)模型Inception_Resnet_V2(見圖3)[15]來完成音頻高層特征的提取工作。其中,Stem模塊采用多次卷積操作與兩次池化操作,是進入Inception結(jié)構(gòu)的預(yù)處理過程,可以防止瓶頸問題。Inception_resnet模塊則主要完成特征維度上的提取工作,引入的殘差結(jié)構(gòu)可有效防止梯度下降問題。Inception_resnet模塊后面對應(yīng)的Reduction模塊采用了并行結(jié)構(gòu),主要作用仍是防止瓶頸問題。Inception_Resnet_V2模型的最后一層采用的是Softmax分類器。圖3 Inception_Resnet_V2模型結(jié)構(gòu)
Inception_Resnet_V2模型結(jié)構(gòu)
【參考文獻】:
期刊論文
[1]基于深度學(xué)習(xí)與隨機森林的高維數(shù)據(jù)特征選擇[J]. 馮曉榮,瞿國慶. 計算機工程與設(shè)計. 2019(09)
[2]理解數(shù)字聲音——基于一般音頻/環(huán)境聲的計算機聽覺綜述[J]. 李偉,李碩. 復(fù)旦學(xué)報(自然科學(xué)版). 2019(03)
[3]基于神經(jīng)形態(tài)電路的音頻場景特征提取及識別技術(shù)[J]. 王雨辰,胡華. 計算機應(yīng)用研究. 2018(12)
[4]基于Kinect輔助的機器人帶噪語音識別[J]. 王建榮,高永春,張句,魏建國,黨建武. 清華大學(xué)學(xué)報(自然科學(xué)版). 2017(09)
碩士論文
[1]音頻場景檢測機制的設(shè)計與實施[D]. 劉若瀾.北京郵電大學(xué) 2017
本文編號:3300059
【文章來源】:武漢科技大學(xué)學(xué)報. 2020,43(02)北大核心
【文章頁數(shù)】:6 頁
【部分圖文】:
DDA-IRRF方法的框架結(jié)構(gòu)
卷積神經(jīng)網(wǎng)絡(luò)屬于前饋神經(jīng)網(wǎng)絡(luò),在提取特征上具有很好的表現(xiàn),能夠挖掘出數(shù)據(jù)的內(nèi)在結(jié)構(gòu)規(guī)律。本文使用Google研究團隊推出的卷積神經(jīng)網(wǎng)絡(luò)模型Inception_Resnet_V2(見圖3)[15]來完成音頻高層特征的提取工作。其中,Stem模塊采用多次卷積操作與兩次池化操作,是進入Inception結(jié)構(gòu)的預(yù)處理過程,可以防止瓶頸問題。Inception_resnet模塊則主要完成特征維度上的提取工作,引入的殘差結(jié)構(gòu)可有效防止梯度下降問題。Inception_resnet模塊后面對應(yīng)的Reduction模塊采用了并行結(jié)構(gòu),主要作用仍是防止瓶頸問題。Inception_Resnet_V2模型的最后一層采用的是Softmax分類器。圖3 Inception_Resnet_V2模型結(jié)構(gòu)
Inception_Resnet_V2模型結(jié)構(gòu)
【參考文獻】:
期刊論文
[1]基于深度學(xué)習(xí)與隨機森林的高維數(shù)據(jù)特征選擇[J]. 馮曉榮,瞿國慶. 計算機工程與設(shè)計. 2019(09)
[2]理解數(shù)字聲音——基于一般音頻/環(huán)境聲的計算機聽覺綜述[J]. 李偉,李碩. 復(fù)旦學(xué)報(自然科學(xué)版). 2019(03)
[3]基于神經(jīng)形態(tài)電路的音頻場景特征提取及識別技術(shù)[J]. 王雨辰,胡華. 計算機應(yīng)用研究. 2018(12)
[4]基于Kinect輔助的機器人帶噪語音識別[J]. 王建榮,高永春,張句,魏建國,黨建武. 清華大學(xué)學(xué)報(自然科學(xué)版). 2017(09)
碩士論文
[1]音頻場景檢測機制的設(shè)計與實施[D]. 劉若瀾.北京郵電大學(xué) 2017
本文編號:3300059
本文鏈接:http://www.sikaile.net/kejilunwen/wltx/3300059.html
最近更新
教材專著