可變形特征圖殘差網(wǎng)絡(luò)用于城市聲音識(shí)別
發(fā)布時(shí)間:2021-02-21 13:19
針對(duì)城市聲音識(shí)別過程中時(shí)頻圖像特征提取較困難的問題,提出一種可變形特征圖殘差網(wǎng)絡(luò)用于城市聲音識(shí)別.首先設(shè)計(jì)可變形特征圖殘差模塊,包括偏移層與卷積層.偏移層將輸入特征圖的像素點(diǎn)移位,移位后的特征圖通過快捷連接與卷積層提取到的特征圖疊加,使網(wǎng)絡(luò)集中在感興趣的特征圖區(qū)域采樣,并向下級(jí)網(wǎng)絡(luò)傳遞移位后特征圖信息;其次設(shè)計(jì)可變形卷積殘差網(wǎng)絡(luò);最后將該網(wǎng)絡(luò)提取的特征與城市聲音的梅爾倒譜系數(shù)融合,經(jīng)壓縮激勵(lì)模塊重標(biāo)定后輸入全連接層分類.在城市聲音數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),結(jié)果表明,與卷積神經(jīng)網(wǎng)絡(luò)的方法相比,該方法用于城市聲音識(shí)別準(zhǔn)確率提高5%以上.
【文章來源】:計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào). 2020,32(11)北大核心
【文章頁數(shù)】:10 頁
【部分圖文】:
0 可變形特征圖殘差網(wǎng)絡(luò)識(shí)別城市聲音流程圖
實(shí)際獲取的城市聲音信噪比未知,通常可分為高信噪比和低信噪比.根據(jù)式(1)可得到典型城市聲音對(duì)數(shù)梅爾譜圖如圖1所示,分圖左右部分分別為較高信噪比與較低信噪比實(shí)例.可以看到,雖然信噪比不同,但城市聲音對(duì)數(shù)梅爾譜圖在一定程度上具有類似的紋理,如圖1l的尖叫聲,圖1m的玻璃破碎聲.但低信噪比下的對(duì)數(shù)梅爾譜圖的紋理往往更加豐富,如圖1a的空調(diào)外機(jī)聲,圖1b的小車鳴笛聲,圖1d的狗叫聲,圖1f的發(fā)動(dòng)機(jī)空轉(zhuǎn)聲及圖1j的街邊音樂聲;從圖1i的汽笛聲對(duì)數(shù)梅爾譜圖可以看到,它具有類似的條形紋理,顏色十分明亮,這表明對(duì)應(yīng)頻率成分能量高.寬度不固定的橫向條紋代表聲音的頻率成分隨時(shí)間變化,寬度不固定的縱向條紋則意味不同頻率成分持續(xù)時(shí)間不同;圖1b的小車鳴笛聲,圖1e的鉆孔聲對(duì)數(shù)梅爾譜圖,可以觀察到明顯的曲線,而曲線灰度值較大,代表聲音的能量高度集中在少數(shù)頻率成分上;圖1a的空調(diào)外機(jī)聲,圖1c的孩子玩耍聲,圖1d的狗叫聲,圖1f的發(fā)動(dòng)機(jī)空轉(zhuǎn)聲,圖1h的手提鉆聲,圖1j的街邊音樂聲以及圖1l的尖叫聲的對(duì)數(shù)梅爾譜圖具有明亮顏色的區(qū)域較大,代表城市聲音頻率成分多,與前2類聲音相比,能量分布較分散,紋理豐富,并且能量相對(duì)集中區(qū)域結(jié)構(gòu)復(fù)雜,也就是城市聲音頻率成分隨時(shí)間變化較大;圖1g的槍聲,圖1k的爆炸聲,圖1m的玻璃破碎聲的對(duì)數(shù)梅爾譜圖中某些區(qū)域能量相對(duì)集中,一般為區(qū)域中心顏色十分明亮,向邊緣方向逐漸變灰暗,其輪廓邊緣呈現(xiàn)不規(guī)則的特點(diǎn),表明該類城市聲音各頻率成分能量衰減速度不同.此外,時(shí)間窗長(zhǎng)度和滑動(dòng)步長(zhǎng)等參數(shù)將影響城市聲音轉(zhuǎn)換而成的對(duì)數(shù)梅爾譜圖,然而由于時(shí)間窗與滑動(dòng)距離十分短,對(duì)數(shù)梅爾譜圖的區(qū)別較小.2 可變形特征圖殘差網(wǎng)絡(luò)
近年來,CNN在圖像處理中表現(xiàn)出優(yōu)秀的性能[20-21].Res Net[16]是CNN的經(jīng)典結(jié)構(gòu),能較好地解決隨著CNN深度增加,性能迅速下降的問題.Res Net主要由殘差模塊堆疊而成,殘差模塊如圖2所示,其中,identity x稱為快捷連接,x為殘差模塊的輸入;Convolution為卷積層,x經(jīng)過2個(gè)卷積層后的輸出為與快捷連接疊加后輸出F殘差模塊輸出的特征圖大小與輸入x相同,利用2層卷積層擬合輸入與輸出間的殘差,使得殘差模塊有較強(qiáng)的學(xué)習(xí)能力.因此,Res Net是目前用于自然圖像特征提取很好的選擇.城市聲音對(duì)數(shù)梅爾譜圖與自然圖像特性截然不同.如自然圖像的背景色彩對(duì)比強(qiáng)烈,目標(biāo)輪廓邊緣清晰,具有一定的規(guī)律.由于背景噪聲的干擾,城市聲音對(duì)數(shù)梅爾譜圖的能量相對(duì)集中區(qū)域即包含目標(biāo)聲音與背景噪聲信息.相較于自然圖像,對(duì)數(shù)梅爾譜圖主要體現(xiàn)為紋理豐富,能量集中區(qū)域幾何結(jié)構(gòu)復(fù)雜,輪廓邊緣不規(guī)則,類別之間差異較小.因此,傳統(tǒng)的Res Net提取自然圖像特征的方法并不能很好地處理城市聲音對(duì)數(shù)梅爾譜圖特征提取問題.其主要原因是,殘差模塊卷積層中卷積核大小、形狀和采樣位置固定,在提取城市聲音對(duì)數(shù)梅爾譜圖特征時(shí),這種固定的卷積核單元往往無法集中在圖像感興趣的區(qū)域采樣.圖3中,黑色的點(diǎn)代表傳統(tǒng)卷積核的采樣的像素點(diǎn)位置,由于傳統(tǒng)卷積核采樣點(diǎn)形狀為固定的矩形,因此,被采樣的像素點(diǎn)形狀也為矩形.圖3a第3行像素點(diǎn)處于較灰暗的區(qū)域,圖3b中只有第2行2個(gè)像素點(diǎn)及第3行一個(gè)像素點(diǎn)處于較明亮的區(qū)域.同理,圖3c和圖3d采樣的像素點(diǎn)極易處于城市聲音對(duì)數(shù)梅爾譜圖灰度值低且變化較小的區(qū)域,這些區(qū)域較灰暗,信號(hào)的頻率成分極少,無法反映信號(hào)的時(shí)頻特性,即此時(shí)卷積核在譜圖無關(guān)緊要或不感興趣的區(qū)域采樣,自然提取的特征信息較少,網(wǎng)絡(luò)的特征描述能力較差.
【參考文獻(xiàn)】:
期刊論文
[1]改進(jìn)的ESMD用于公共場(chǎng)所異常聲音特征提取[J]. 李偉紅,田真真,龔衛(wèi)國,王偉冰. 儀器儀表學(xué)報(bào). 2016(11)
本文編號(hào):3044405
【文章來源】:計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào). 2020,32(11)北大核心
【文章頁數(shù)】:10 頁
【部分圖文】:
0 可變形特征圖殘差網(wǎng)絡(luò)識(shí)別城市聲音流程圖
實(shí)際獲取的城市聲音信噪比未知,通常可分為高信噪比和低信噪比.根據(jù)式(1)可得到典型城市聲音對(duì)數(shù)梅爾譜圖如圖1所示,分圖左右部分分別為較高信噪比與較低信噪比實(shí)例.可以看到,雖然信噪比不同,但城市聲音對(duì)數(shù)梅爾譜圖在一定程度上具有類似的紋理,如圖1l的尖叫聲,圖1m的玻璃破碎聲.但低信噪比下的對(duì)數(shù)梅爾譜圖的紋理往往更加豐富,如圖1a的空調(diào)外機(jī)聲,圖1b的小車鳴笛聲,圖1d的狗叫聲,圖1f的發(fā)動(dòng)機(jī)空轉(zhuǎn)聲及圖1j的街邊音樂聲;從圖1i的汽笛聲對(duì)數(shù)梅爾譜圖可以看到,它具有類似的條形紋理,顏色十分明亮,這表明對(duì)應(yīng)頻率成分能量高.寬度不固定的橫向條紋代表聲音的頻率成分隨時(shí)間變化,寬度不固定的縱向條紋則意味不同頻率成分持續(xù)時(shí)間不同;圖1b的小車鳴笛聲,圖1e的鉆孔聲對(duì)數(shù)梅爾譜圖,可以觀察到明顯的曲線,而曲線灰度值較大,代表聲音的能量高度集中在少數(shù)頻率成分上;圖1a的空調(diào)外機(jī)聲,圖1c的孩子玩耍聲,圖1d的狗叫聲,圖1f的發(fā)動(dòng)機(jī)空轉(zhuǎn)聲,圖1h的手提鉆聲,圖1j的街邊音樂聲以及圖1l的尖叫聲的對(duì)數(shù)梅爾譜圖具有明亮顏色的區(qū)域較大,代表城市聲音頻率成分多,與前2類聲音相比,能量分布較分散,紋理豐富,并且能量相對(duì)集中區(qū)域結(jié)構(gòu)復(fù)雜,也就是城市聲音頻率成分隨時(shí)間變化較大;圖1g的槍聲,圖1k的爆炸聲,圖1m的玻璃破碎聲的對(duì)數(shù)梅爾譜圖中某些區(qū)域能量相對(duì)集中,一般為區(qū)域中心顏色十分明亮,向邊緣方向逐漸變灰暗,其輪廓邊緣呈現(xiàn)不規(guī)則的特點(diǎn),表明該類城市聲音各頻率成分能量衰減速度不同.此外,時(shí)間窗長(zhǎng)度和滑動(dòng)步長(zhǎng)等參數(shù)將影響城市聲音轉(zhuǎn)換而成的對(duì)數(shù)梅爾譜圖,然而由于時(shí)間窗與滑動(dòng)距離十分短,對(duì)數(shù)梅爾譜圖的區(qū)別較小.2 可變形特征圖殘差網(wǎng)絡(luò)
近年來,CNN在圖像處理中表現(xiàn)出優(yōu)秀的性能[20-21].Res Net[16]是CNN的經(jīng)典結(jié)構(gòu),能較好地解決隨著CNN深度增加,性能迅速下降的問題.Res Net主要由殘差模塊堆疊而成,殘差模塊如圖2所示,其中,identity x稱為快捷連接,x為殘差模塊的輸入;Convolution為卷積層,x經(jīng)過2個(gè)卷積層后的輸出為與快捷連接疊加后輸出F殘差模塊輸出的特征圖大小與輸入x相同,利用2層卷積層擬合輸入與輸出間的殘差,使得殘差模塊有較強(qiáng)的學(xué)習(xí)能力.因此,Res Net是目前用于自然圖像特征提取很好的選擇.城市聲音對(duì)數(shù)梅爾譜圖與自然圖像特性截然不同.如自然圖像的背景色彩對(duì)比強(qiáng)烈,目標(biāo)輪廓邊緣清晰,具有一定的規(guī)律.由于背景噪聲的干擾,城市聲音對(duì)數(shù)梅爾譜圖的能量相對(duì)集中區(qū)域即包含目標(biāo)聲音與背景噪聲信息.相較于自然圖像,對(duì)數(shù)梅爾譜圖主要體現(xiàn)為紋理豐富,能量集中區(qū)域幾何結(jié)構(gòu)復(fù)雜,輪廓邊緣不規(guī)則,類別之間差異較小.因此,傳統(tǒng)的Res Net提取自然圖像特征的方法并不能很好地處理城市聲音對(duì)數(shù)梅爾譜圖特征提取問題.其主要原因是,殘差模塊卷積層中卷積核大小、形狀和采樣位置固定,在提取城市聲音對(duì)數(shù)梅爾譜圖特征時(shí),這種固定的卷積核單元往往無法集中在圖像感興趣的區(qū)域采樣.圖3中,黑色的點(diǎn)代表傳統(tǒng)卷積核的采樣的像素點(diǎn)位置,由于傳統(tǒng)卷積核采樣點(diǎn)形狀為固定的矩形,因此,被采樣的像素點(diǎn)形狀也為矩形.圖3a第3行像素點(diǎn)處于較灰暗的區(qū)域,圖3b中只有第2行2個(gè)像素點(diǎn)及第3行一個(gè)像素點(diǎn)處于較明亮的區(qū)域.同理,圖3c和圖3d采樣的像素點(diǎn)極易處于城市聲音對(duì)數(shù)梅爾譜圖灰度值低且變化較小的區(qū)域,這些區(qū)域較灰暗,信號(hào)的頻率成分極少,無法反映信號(hào)的時(shí)頻特性,即此時(shí)卷積核在譜圖無關(guān)緊要或不感興趣的區(qū)域采樣,自然提取的特征信息較少,網(wǎng)絡(luò)的特征描述能力較差.
【參考文獻(xiàn)】:
期刊論文
[1]改進(jìn)的ESMD用于公共場(chǎng)所異常聲音特征提取[J]. 李偉紅,田真真,龔衛(wèi)國,王偉冰. 儀器儀表學(xué)報(bào). 2016(11)
本文編號(hào):3044405
本文鏈接:http://www.sikaile.net/kejilunwen/xinxigongchenglunwen/3044405.html
最近更新
教材專著