天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

弱標(biāo)簽環(huán)境下基于多尺度注意力融合的聲音識(shí)別檢測(cè)

發(fā)布時(shí)間:2021-10-24 17:28
  目前大多數(shù)聲音識(shí)別檢測(cè)的研究都是基于強(qiáng)標(biāo)簽數(shù)據(jù)集的,但在真實(shí)環(huán)境的聲音識(shí)別與檢測(cè)任務(wù)中,音頻標(biāo)簽不完整并且含有大量噪聲,使得獲取強(qiáng)標(biāo)簽音頻數(shù)據(jù)比較困難,進(jìn)而影響對(duì)聲音的準(zhǔn)確識(shí)別與檢測(cè)。為此,在卷積循環(huán)神經(jīng)網(wǎng)絡(luò)模型的基礎(chǔ)上,提出了一種多尺度注意力融合機(jī)制。該機(jī)制使用注意力門控單元,在降低聲音時(shí)頻圖特征中噪聲影響的同時(shí),能夠更多地利用有效特征。同時(shí),通過結(jié)合多個(gè)尺寸的卷積核進(jìn)行特征融合,進(jìn)一步提升對(duì)聲音特征的有效提取。此外,采用一種結(jié)合幀檢測(cè)結(jié)果的加權(quán)法對(duì)聲音信號(hào)進(jìn)行識(shí)別。最后,在弱標(biāo)簽環(huán)境下,從AudioSet數(shù)據(jù)庫中選取一個(gè)包含17種城市交通工具聲音的弱標(biāo)簽數(shù)據(jù)集進(jìn)行檢測(cè)識(shí)別,所提模型對(duì)測(cè)試集聲音識(shí)別結(jié)果的F1值為58.9%,檢測(cè)結(jié)果的F1值為43.7%。結(jié)果表明,在弱標(biāo)簽城市交通工具聲數(shù)據(jù)集下,網(wǎng)絡(luò)模型相比傳統(tǒng)的聲音識(shí)別檢測(cè)模型具有更高的識(shí)別檢測(cè)精度;同時(shí),重要性加權(quán)識(shí)別方法、多尺度注意力融合方法均可提升模型對(duì)聲音識(shí)別檢測(cè)的精度。 

【文章來源】:計(jì)算機(jī)科學(xué). 2020,47(05)北大核心CSCD

【文章頁數(shù)】:4 頁

【部分圖文】:

弱標(biāo)簽環(huán)境下基于多尺度注意力融合的聲音識(shí)別檢測(cè)


CRNN模型結(jié)構(gòu)圖

注意力,多尺度,機(jī)制,卷積


借鑒inception結(jié)構(gòu)[15]的創(chuàng)新思想,在門控注意力機(jī)制的基礎(chǔ)上使用一種多尺度卷積融合方法,融合過程如圖2所示。對(duì)CNN中的每一卷積層使用1*1的卷積核,得到輸出Y1:

注意力,機(jī)制,聲音,時(shí)頻


為了對(duì)聲音事件進(jìn)行檢測(cè),首先將音頻分幀,得到時(shí)頻圖。通過CNN提取時(shí)頻圖的高級(jí)特征并將其輸入RNN,最后將RNN的輸出輸入至FNN,并經(jīng)過sigmoid激活函數(shù)得到每一幀的檢測(cè)結(jié)果。聲音事件檢測(cè)與識(shí)別的整體模型結(jié)構(gòu)如圖3所示。為了更好地識(shí)別聲音,首先將每一幀t的識(shí)別結(jié)果Pt進(jìn)行平均,得到識(shí)別結(jié)果O:


本文編號(hào):3455679

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/wltx/3455679.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶8b913***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com