天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 信息工程論文 >

聲音事件識別中的有效特征提取方法研究

發(fā)布時(shí)間:2017-08-20 22:09

  本文關(guān)鍵詞:聲音事件識別中的有效特征提取方法研究


  更多相關(guān)文章: 聲音事件識別 特征表示 特征融合 深層神經(jīng)網(wǎng)絡(luò) 卷積神經(jīng)網(wǎng)絡(luò) 頻譜圖特征 耳蝸圖特征


【摘要】:近些年來,作為聲音識別中的一個(gè)新興的研究方向,“聲音事件識別”因其廣泛的應(yīng)用前景,越來越受到研究學(xué)者們的關(guān)注。通過對聲音事件,例如敲門聲、掌聲、腳步聲,甚至鳥鳴聲等,進(jìn)行識別,能夠感知所處的環(huán)境,并偵測出其發(fā)生的變化。因此,聲音事件識別可以用于無人看守的安全監(jiān)管、醫(yī)療救助,以及機(jī)器的智能化,同時(shí)也為實(shí)現(xiàn)更好的人機(jī)交互體驗(yàn)提供了可能。一方面,在幾十年的發(fā)展過程中,研究學(xué)者們針對聲音事件的識別任務(wù),提出了一系列的特征提取方法和相應(yīng)的識別系統(tǒng),取得了突飛猛進(jìn)的發(fā)展和進(jìn)步。另一方面,隨著人工智能技術(shù)的不斷發(fā)展和突破,作為深度學(xué)習(xí)理論內(nèi)容的一部分,深層神經(jīng)網(wǎng)絡(luò)因其強(qiáng)大的信息抽取和建模能力,在模式識別,自動控制,智能機(jī)器等諸多領(lǐng)域取得了顯著的成就,尤其是在語音識別,圖像理解等領(lǐng)域獲得了突飛猛進(jìn)的性能提升。目前聲音事件識別系統(tǒng)在噪聲環(huán)境較弱的情況下,識別效果很理想。但受聲音事件自身特性的影響,隨著噪聲強(qiáng)度的不斷增加,相應(yīng)的識別效果普遍較差,未能取得令人滿意的識別性能。為此,本文研究的重點(diǎn)和方向是,利用深層神經(jīng)網(wǎng)絡(luò)強(qiáng)大的對于信息提取和特征抽象的能力,提出能夠?qū)?fù)雜噪聲魯棒的有效特征表示方法,進(jìn)一步提升聲音事件識別系統(tǒng)在噪聲環(huán)境下的識別效果。主要包括以下幾個(gè)方面內(nèi)容:首先,提出了一種時(shí)頻域非線性降采樣的特征表示方法。由于傳統(tǒng)的二維頻譜圖特征同時(shí)包含有時(shí)、頻域的信息,為了使得到的頻譜圖特征具有更強(qiáng)的可區(qū)分性,本文提出了一種數(shù)據(jù)驅(qū)動式的時(shí)域和頻域非線性降采樣策略。頻域上,通過分析噪聲和不同種類的聲音事件在不同頻段上分布的差異性信息,確定相應(yīng)的非線性降采樣邊界,對頻譜圖進(jìn)行頻域的非線性降采樣。另一方面,在時(shí)域上,利用斐波那契數(shù)列來獲取頻譜圖中不同長短的時(shí)域幀信息,并進(jìn)行非線性降采樣的操作。經(jīng)過上述不同非線性降采樣操作后得到的特征,將被送入相應(yīng)的深層神經(jīng)網(wǎng)絡(luò)中進(jìn)一步提取高層的抽象信息,并最終用來對聲音事件進(jìn)行識別。實(shí)驗(yàn)結(jié)果表明,,利用頻域方差非線性映射的特征表示方法,能獲得較優(yōu)的性能提升,特別是在強(qiáng)噪聲的環(huán)境下。其次,提出了一種基于神經(jīng)網(wǎng)絡(luò)的譜圖時(shí)頻域融合的特征表示方法。在將耳蝸圖特征引入聲音事件識別的基礎(chǔ)上,嘗試?yán)蒙顚由窠?jīng)網(wǎng)絡(luò)對兩種不同的時(shí)頻二維特征圖進(jìn)行拼接和融合,獲得更有效的特征表示方法;诓煌纳窠(jīng)網(wǎng)絡(luò),提出了兩種不同的特征融合策略,即文中提出的“雙通道特征融合”和“底層特征融合”。其中,雙通道的特征融合方法利用了卷積神經(jīng)網(wǎng)絡(luò)的特殊結(jié)構(gòu),將頻譜圖和耳蝸圖同時(shí)送入卷積神經(jīng)網(wǎng)絡(luò)的不同通道中,經(jīng)過卷積操作后再進(jìn)行特征的拼接;而底層特征融合的方法是,在將不同譜圖特征送入神經(jīng)網(wǎng)絡(luò)之前就進(jìn)行拼接融合。實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),經(jīng)過特征融合后的系統(tǒng)性能有顯著的提升,且基于卷積神經(jīng)網(wǎng)絡(luò)的底層特征融合的系統(tǒng)性能更優(yōu)。最后,在前兩部分研究的基礎(chǔ)上,提出了基于神經(jīng)網(wǎng)絡(luò)的譜圖多分辨融合的特征表示方法。從綜合利用譜圖信息的局部和全局特征的角度出發(fā),同樣采用上述兩種不同的特征融合策略,對不同分辨率的譜圖特征進(jìn)行拼接融合。為了獲取不同分辨率信息的譜圖特征,我們采用不同的窗長和窗移對原始的音頻信號進(jìn)行處理。若窗長和窗移較短,則譜圖特征中的時(shí)域分辨率較高,但頻域的分辨率則較差,可以獲得較好的局部信息:反之,則能在較大的窗長和窗移下獲得較為完整的全局信息。這兩種不同分辨率的譜圖特征,彼此具有互補(bǔ)性,通過融合能更好對聲音事件進(jìn)行區(qū)分和識別。實(shí)驗(yàn)結(jié)果也證明,利用不同分辨率譜圖特征融合的方法可以進(jìn)一步提升系統(tǒng)的識別準(zhǔn)確率,并在強(qiáng)噪聲環(huán)境下表現(xiàn)優(yōu)異。
【關(guān)鍵詞】:聲音事件識別 特征表示 特征融合 深層神經(jīng)網(wǎng)絡(luò) 卷積神經(jīng)網(wǎng)絡(luò) 頻譜圖特征 耳蝸圖特征
【學(xué)位授予單位】:中國科學(xué)技術(shù)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TN912.34
【目錄】:
  • 摘要5-7
  • ABSTRACT7-14
  • 主要符號對照表14-15
  • 第一章 緒論15-25
  • 1.1 聲音事件識別簡介15-18
  • 1.1.1 研究方向15-16
  • 1.1.2 相關(guān)應(yīng)用16-17
  • 1.1.3 面臨挑戰(zhàn)17-18
  • 1.2 聲音事件識別系統(tǒng)框架18-19
  • 1.3 研究現(xiàn)狀19-21
  • 1.3.1 發(fā)展歷程19-20
  • 1.3.2 存在問題20-21
  • 1.4 數(shù)據(jù)集介紹21-22
  • 1.5 本文研究內(nèi)容及組織框架22-25
  • 1.5.1主要內(nèi)容22-23
  • 1.5.2 本文的組織框架23-25
  • 第二章 聲音事件識別的特征提取方法綜述25-35
  • 2.1 傳統(tǒng)特征25-28
  • 2.1.1 平穩(wěn)特征25-27
  • 2.1.2 非平穩(wěn)特征27-28
  • 2.2 基于神經(jīng)網(wǎng)絡(luò)的特征28-33
  • 2.2.1 深度神經(jīng)網(wǎng)絡(luò)28-32
  • 2.2.2 卷積神經(jīng)網(wǎng)絡(luò)32-33
  • 2.3 本章小結(jié)33-35
  • 第三章 基于時(shí)頻域非線性映射的特征表示35-47
  • 3.1 基于頻域方差非線性映射的特征表示35-44
  • 3.1.1 研究動機(jī)35-36
  • 3.1.2 頻域篩選的頻譜圖特征(FSM-SIF)36-37
  • 3.1.3 頻域方差的計(jì)算37-38
  • 3.1.4 非線性映射邊界的確定38-40
  • 3.1.5 系統(tǒng)框架及實(shí)驗(yàn)配置40-41
  • 3.1.6 實(shí)驗(yàn)結(jié)果與討論41-44
  • 3.2 基于時(shí)域非線性映射的特征表示44-45
  • 3.3 本章小結(jié)45-47
  • 第四章 基于神經(jīng)網(wǎng)絡(luò)的譜圖時(shí)頻域融合特征表示47-57
  • 4.1 研究動機(jī)47
  • 4.2 耳蝸圖特征的引入47-50
  • 4.2.1 耳蝸圖簡介47-48
  • 4.2.2 耳蝸圖與DNN48-49
  • 4.2.3 耳蝸圖與CNN49-50
  • 4.3 去噪處理50-51
  • 4.4 雙通道特征融合51-53
  • 4.4.1 實(shí)驗(yàn)框架52-53
  • 4.4.2 實(shí)驗(yàn)結(jié)果53
  • 4.5 底層特征融合53-55
  • 4.5.1 實(shí)驗(yàn)框架53-54
  • 4.5.2 實(shí)驗(yàn)結(jié)果54-55
  • 4.6 本章小結(jié)55-57
  • 第五章 基于神經(jīng)網(wǎng)絡(luò)的譜圖多分辨率融合特征表示57-67
  • 5.1 研究動機(jī)57
  • 5.2 實(shí)驗(yàn)框架57-59
  • 5.3 頻譜圖多分辨率融合的特征表示59-61
  • 5.3.1 實(shí)驗(yàn)配置59
  • 5.3.2 分辨率的確定59-60
  • 5.3.3 實(shí)驗(yàn)結(jié)果60-61
  • 5.4 耳蝸圖多分辨率融合的特征表示61-63
  • 5.4.1 實(shí)驗(yàn)配置61
  • 5.4.2 分辨率的確定61-63
  • 5.4.3 實(shí)驗(yàn)結(jié)果63
  • 5.5 不同融合特征性能對比63-66
  • 5.6 本章小結(jié)66-67
  • 第六章 總結(jié)67-71
  • 6.1 本文的主要貢獻(xiàn)67-68
  • 6.2 后續(xù)研究展望68-71
  • 參考文獻(xiàn)71-75
  • 致謝75-77
  • 在讀期間發(fā)表的學(xué)術(shù)論文與取得的研究成果77-78

【參考文獻(xiàn)】

中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條

1 冷嚴(yán);復(fù)雜音頻的事件檢測與分類中的關(guān)鍵問題研究[D];北京郵電大學(xué);2012年



本文編號:709134

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/xinxigongchenglunwen/709134.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶2c1c2***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com