基于深度學(xué)習(xí)的音頻場(chǎng)景分類方法研究
發(fā)布時(shí)間:2021-07-08 07:41
在聲音信號(hào)檢索(Sound Information Retrieval,SIR)領(lǐng)域,音頻場(chǎng)景分類(Environmental Sound Classification,ESC)作為該領(lǐng)域的熱點(diǎn)問(wèn)題,致力于通過(guò)分析從各種音頻信號(hào)中提取的復(fù)雜特性,識(shí)別其對(duì)應(yīng)的特定場(chǎng)景所包含的語(yǔ)義標(biāo)簽,從而對(duì)其周圍環(huán)境進(jìn)行感知和理解,最終實(shí)現(xiàn)特定音頻場(chǎng)景的分類。常用音頻信號(hào)特征提取方法為梅爾頻率倒譜系數(shù)(MEL Frequency Cepstrum Coefficient,MFCC)。這種方法雖然抗干擾能力強(qiáng),能夠抓取音頻數(shù)據(jù)中最有辨識(shí)度的部分,但卻只能分析信號(hào)的短時(shí)特征,往往不足以完整刻畫整個(gè)音頻數(shù)據(jù)的結(jié)構(gòu)特點(diǎn)。近年來(lái)深度學(xué)習(xí)技術(shù)日益成熟并作為最有效的特征提取方法之一,已在機(jī)器學(xué)習(xí)、圖像識(shí)別、自然語(yǔ)言處理等諸多領(lǐng)域取得突破性進(jìn)展[1]。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)作為典型的深度學(xué)習(xí)網(wǎng)絡(luò)框架,具有權(quán)值共享和局部連接等特性,特別是帶有池化層的卷積神經(jīng)網(wǎng)絡(luò)在對(duì)城市聲音聲源分類方面卓有成效。然而,池化操作往往會(huì)導(dǎo)致信息的大量丟失,從而影...
【文章來(lái)源】:山西大學(xué)山西省
【文章頁(yè)數(shù)】:66 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
音頻場(chǎng)景分類流程圖
分析的數(shù)字信號(hào)。音頻信號(hào)的數(shù)字化處理一般包括預(yù)濾波、采樣、A|D 轉(zhuǎn)換等,預(yù)處理部分包括預(yù)加重、去加重、加窗、分幀等。音頻信號(hào)數(shù)字化及預(yù)處理的基本流程如圖2.2所示。通過(guò)預(yù)濾波抑制輸入信號(hào)各頻域分量中超出采樣頻率的所有分量,9基于深度學(xué)習(xí)的音頻場(chǎng)景分類方法研究
特征、頻域特征和倒譜域特征。同時(shí),為了增強(qiáng)幀兩端的連續(xù)性,使連續(xù)幀之間實(shí)現(xiàn)平滑過(guò)渡,保證分幀后的信號(hào)片段相關(guān)性更強(qiáng),具體操作中往往采用連續(xù)有交疊的分幀方式,如圖2.3所示,其中 N 代表幀長(zhǎng),M 為幀移,即幀間重疊部分。分幀通過(guò)有限長(zhǎng)度的窗口加權(quán)(窗函數(shù)) 后平滑的在時(shí)間軸上進(jìn)行滑動(dòng)實(shí)現(xiàn),即加窗操作。通過(guò)加窗操作可以有效避免音頻信號(hào)的截?cái),保持信?hào)的連續(xù)性,降低幀兩端的坡度,避免信息遺失或泄11
【參考文獻(xiàn)】:
期刊論文
[1]基于改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)在圖片分類中的應(yīng)用[J]. 趙新秋,賀海龍,楊冬冬,段思雨. 高技術(shù)通訊. 2018(Z2)
[2]基于視覺(jué)的情感分析研究綜述[J]. 李祖賀,樊養(yǎng)余. 計(jì)算機(jī)應(yīng)用研究. 2015(12)
[3]基于深度學(xué)習(xí)的作曲家分類問(wèn)題[J]. 胡振,傅昆,張長(zhǎng)水. 計(jì)算機(jī)研究與發(fā)展. 2014(09)
[4]音頻檢索技術(shù)研究[J]. 李晨,周明全. 計(jì)算機(jī)技術(shù)與發(fā)展. 2008(08)
碩士論文
[1]基于Spark的貝葉斯文本分類算法研究與實(shí)現(xiàn)[D]. 魯彬.湖南大學(xué) 2016
[2]基于視覺(jué)信息引導(dǎo)的艦載無(wú)人機(jī)精確著艦技術(shù)研究[D]. 吳賽飛.南京航空航天大學(xué) 2016
[3]門限玻爾茲曼機(jī)在人臉識(shí)別中的魯棒性研究[D]. 施維蒨.北京交通大學(xué) 2015
本文編號(hào):3271158
【文章來(lái)源】:山西大學(xué)山西省
【文章頁(yè)數(shù)】:66 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
音頻場(chǎng)景分類流程圖
分析的數(shù)字信號(hào)。音頻信號(hào)的數(shù)字化處理一般包括預(yù)濾波、采樣、A|D 轉(zhuǎn)換等,預(yù)處理部分包括預(yù)加重、去加重、加窗、分幀等。音頻信號(hào)數(shù)字化及預(yù)處理的基本流程如圖2.2所示。通過(guò)預(yù)濾波抑制輸入信號(hào)各頻域分量中超出采樣頻率的所有分量,9基于深度學(xué)習(xí)的音頻場(chǎng)景分類方法研究
特征、頻域特征和倒譜域特征。同時(shí),為了增強(qiáng)幀兩端的連續(xù)性,使連續(xù)幀之間實(shí)現(xiàn)平滑過(guò)渡,保證分幀后的信號(hào)片段相關(guān)性更強(qiáng),具體操作中往往采用連續(xù)有交疊的分幀方式,如圖2.3所示,其中 N 代表幀長(zhǎng),M 為幀移,即幀間重疊部分。分幀通過(guò)有限長(zhǎng)度的窗口加權(quán)(窗函數(shù)) 后平滑的在時(shí)間軸上進(jìn)行滑動(dòng)實(shí)現(xiàn),即加窗操作。通過(guò)加窗操作可以有效避免音頻信號(hào)的截?cái),保持信?hào)的連續(xù)性,降低幀兩端的坡度,避免信息遺失或泄11
【參考文獻(xiàn)】:
期刊論文
[1]基于改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)在圖片分類中的應(yīng)用[J]. 趙新秋,賀海龍,楊冬冬,段思雨. 高技術(shù)通訊. 2018(Z2)
[2]基于視覺(jué)的情感分析研究綜述[J]. 李祖賀,樊養(yǎng)余. 計(jì)算機(jī)應(yīng)用研究. 2015(12)
[3]基于深度學(xué)習(xí)的作曲家分類問(wèn)題[J]. 胡振,傅昆,張長(zhǎng)水. 計(jì)算機(jī)研究與發(fā)展. 2014(09)
[4]音頻檢索技術(shù)研究[J]. 李晨,周明全. 計(jì)算機(jī)技術(shù)與發(fā)展. 2008(08)
碩士論文
[1]基于Spark的貝葉斯文本分類算法研究與實(shí)現(xiàn)[D]. 魯彬.湖南大學(xué) 2016
[2]基于視覺(jué)信息引導(dǎo)的艦載無(wú)人機(jī)精確著艦技術(shù)研究[D]. 吳賽飛.南京航空航天大學(xué) 2016
[3]門限玻爾茲曼機(jī)在人臉識(shí)別中的魯棒性研究[D]. 施維蒨.北京交通大學(xué) 2015
本文編號(hào):3271158
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/3271158.html
最近更新
教材專著