基于神經網絡的聲音事件檢測技術研究
發(fā)布時間:2020-12-24 09:42
機器聽覺,是指機器利用聲音傳感器采集音頻數據,并對其進行分析從而判斷聲音的來源、變化等過程的技術,聲音事件檢測(Sound Event Detection,SED)是其重要內容之一。聲音事件檢測就是將采集到的聲音進行分類,并判斷當前發(fā)生的事件或所處的場景,在智能家居、安防監(jiān)控、無人駕駛等領域有著廣闊的應用前景。隨著深度學習技術的不斷發(fā)展,利用神經網絡技術進行聲音事件檢測已經成為了越來越多研究者的選擇。目前,該領域的研究主要存在兩方面的難點,其一是缺少帶有聲音事件起、止時間的強標記數據情況下,如何利用弱標記、甚至是無標記數據進行學習;第二是對于更符合實際生活場景的多聲音事件檢測系統(tǒng),如何強化聲音事件的特征,提高識別的準確率。圍繞上述兩個問題,本文開展了以下研究:首先,優(yōu)化了使用弱標簽數據學習的神經網絡架構,在充分利用循環(huán)神經網絡(RNN)提取上下文信息基礎上,使用殘差網絡(ResNet)替代卷積神經網絡(CNN),加深網絡深度,充分利用弱標記數據,同時使用通道注意力機制,強化特征提取,改善識別效果;其次,構建半監(jiān)督學習框架Mean-Teacher模型,利用強標記數據、弱標記數據與無標記數...
【文章來源】:電子科技大學四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數】:80 頁
【學位級別】:碩士
【部分圖文】:
多聲音事件檢測任務
電子科技大學碩士學位論文8果與標簽向量之間的損失函數,通過最小化損失函數、防止過擬合等,得到最終的模型參數;在測試階段,則僅輸入聲音樣本,通過判斷系統(tǒng)給出的判決結果與已知的該樣本標簽進行比對,從而獲得系統(tǒng)的準確率等性能評價指標。顯然,并不能將參與訓練的聲音樣本用來測試樣本性能,因此訓練集與測試集的劃分必須是互斥的。根據聲音片段與標簽的對應關系,可分為強標簽數據和弱標簽數據。對于強標簽數據,標簽可以對應到聲音事件的起止時刻,假設給出的數據集包含N條聲音樣本,他們分別屬于L個聲音事件,對每一個樣本按照50ms/癥50%幀重疊進行分幀操作,則第i幀數據的起始時間為(i-1)*50ms,結束時間為i*50ms,每幀的時間長度為50ms,若該幀的持續(xù)時間包含在事件的時間范圍內,則其標簽向量L(i)=1,否則L(i)=0;對于弱標簽數據,其標簽并不包含各類事件的具體起始時間,因此各幀的標簽數據均設置為統(tǒng)一的值,即若該條聲音樣本被標記為事件,則各幀的標簽向量L(i)=1,否則各幀的L(i)=0。圖2-1多聲音事件檢測系統(tǒng)框架圖對于單聲音事件檢測來說,任何一段聲音樣本,標簽向量中只能有一個位置對應為1,其余均對應為0;而對于本文探討的多聲音事件檢測而言,標簽向量并不是互斥的,即可能出現(xiàn)同一條聲音樣本或同一幀數據,可能出現(xiàn)標簽向量中兩個甚至多個位置的值為1。2.1.2評價指標單聲音事件檢測本質上仍然是一個分類系統(tǒng),其性能評價指標也與其他的分類系統(tǒng)相似。但是,隨著多聲音事件檢測與弱標簽的聲音事件檢測任務的出現(xiàn)與快速發(fā)展,單純的準確率指標并不能很好地反映系統(tǒng)性能。目前,較為公認的評價指標是由A.Mesaros,及T.Heittola,andT.Virtanen在文獻[31]中提出的F-Score及ER
電子科技大學碩士學位論文10的輸出矩陣,只有當輸出矩陣中事件的起、止時間與標簽矩陣中一致時(一般誤差200ms以內即可認為是一致),才可視為判斷正確,即在響應的時間范圍內標注TP,否則在該時間范圍內標注為FN或FP。因此,基于事件的計算方式,其輸出矩陣與標記矩陣按照事件數對應,不按照幀數對應,其得到的各中間值也是與整個時間范圍內的事件數相關的。圖2-2基于事件的中間量計算方式而基于片段的計算方式,如圖2-3所示,則是將聲音樣本按照某個固定時間長度分幀后,為每一幀打上標簽,根據每一幀的輸出結果構造輸出矩陣。這時,輸出矩陣與標記矩陣是一個大小固定的尺寸,即縱向由聲音事件種類數決定,橫向代表所有鄭將每一幀對應的輸出矩陣和標簽矩陣進行對比并,得出每一幀相應的TP、FP、FN值,再將各幀的情況匯總,得到整個時間范圍內的中間量的值。圖2-3基于片段的中間量計算方式
【參考文獻】:
期刊論文
[1]基于多尺度特征融合的小尺度行人檢測[J]. 羅強,蓋佳航,鄭宏宇. 軟件. 2019(12)
博士論文
[1]復雜音頻的事件檢測與分類中的關鍵問題研究[D]. 冷嚴.北京郵電大學 2012
碩士論文
[1]基于深度特征的說話人辨認技術研究[D]. 顧婷.南京郵電大學 2019
[2]基于深度學習的聲學場景分類與聲音事件檢測[D]. 李先苦.華南理工大學 2019
[3]基于神經網絡的聲紋識別研究[D]. 邱子璇.電子科技大學 2019
[4]基于深度學習的聲音事件識別研究[D]. 王詩佳.東南大學 2018
[5]基于注意力機制的聲音場景深度分類模型研究[D]. 夏子琪.浙江大學 2018
[6]基于多通道的分層特征提取的圖像識別[D]. 祝璞.中國科學技術大學 2016
本文編號:2935429
【文章來源】:電子科技大學四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數】:80 頁
【學位級別】:碩士
【部分圖文】:
多聲音事件檢測任務
電子科技大學碩士學位論文8果與標簽向量之間的損失函數,通過最小化損失函數、防止過擬合等,得到最終的模型參數;在測試階段,則僅輸入聲音樣本,通過判斷系統(tǒng)給出的判決結果與已知的該樣本標簽進行比對,從而獲得系統(tǒng)的準確率等性能評價指標。顯然,并不能將參與訓練的聲音樣本用來測試樣本性能,因此訓練集與測試集的劃分必須是互斥的。根據聲音片段與標簽的對應關系,可分為強標簽數據和弱標簽數據。對于強標簽數據,標簽可以對應到聲音事件的起止時刻,假設給出的數據集包含N條聲音樣本,他們分別屬于L個聲音事件,對每一個樣本按照50ms/癥50%幀重疊進行分幀操作,則第i幀數據的起始時間為(i-1)*50ms,結束時間為i*50ms,每幀的時間長度為50ms,若該幀的持續(xù)時間包含在事件的時間范圍內,則其標簽向量L(i)=1,否則L(i)=0;對于弱標簽數據,其標簽并不包含各類事件的具體起始時間,因此各幀的標簽數據均設置為統(tǒng)一的值,即若該條聲音樣本被標記為事件,則各幀的標簽向量L(i)=1,否則各幀的L(i)=0。圖2-1多聲音事件檢測系統(tǒng)框架圖對于單聲音事件檢測來說,任何一段聲音樣本,標簽向量中只能有一個位置對應為1,其余均對應為0;而對于本文探討的多聲音事件檢測而言,標簽向量并不是互斥的,即可能出現(xiàn)同一條聲音樣本或同一幀數據,可能出現(xiàn)標簽向量中兩個甚至多個位置的值為1。2.1.2評價指標單聲音事件檢測本質上仍然是一個分類系統(tǒng),其性能評價指標也與其他的分類系統(tǒng)相似。但是,隨著多聲音事件檢測與弱標簽的聲音事件檢測任務的出現(xiàn)與快速發(fā)展,單純的準確率指標并不能很好地反映系統(tǒng)性能。目前,較為公認的評價指標是由A.Mesaros,及T.Heittola,andT.Virtanen在文獻[31]中提出的F-Score及ER
電子科技大學碩士學位論文10的輸出矩陣,只有當輸出矩陣中事件的起、止時間與標簽矩陣中一致時(一般誤差200ms以內即可認為是一致),才可視為判斷正確,即在響應的時間范圍內標注TP,否則在該時間范圍內標注為FN或FP。因此,基于事件的計算方式,其輸出矩陣與標記矩陣按照事件數對應,不按照幀數對應,其得到的各中間值也是與整個時間范圍內的事件數相關的。圖2-2基于事件的中間量計算方式而基于片段的計算方式,如圖2-3所示,則是將聲音樣本按照某個固定時間長度分幀后,為每一幀打上標簽,根據每一幀的輸出結果構造輸出矩陣。這時,輸出矩陣與標記矩陣是一個大小固定的尺寸,即縱向由聲音事件種類數決定,橫向代表所有鄭將每一幀對應的輸出矩陣和標簽矩陣進行對比并,得出每一幀相應的TP、FP、FN值,再將各幀的情況匯總,得到整個時間范圍內的中間量的值。圖2-3基于片段的中間量計算方式
【參考文獻】:
期刊論文
[1]基于多尺度特征融合的小尺度行人檢測[J]. 羅強,蓋佳航,鄭宏宇. 軟件. 2019(12)
博士論文
[1]復雜音頻的事件檢測與分類中的關鍵問題研究[D]. 冷嚴.北京郵電大學 2012
碩士論文
[1]基于深度特征的說話人辨認技術研究[D]. 顧婷.南京郵電大學 2019
[2]基于深度學習的聲學場景分類與聲音事件檢測[D]. 李先苦.華南理工大學 2019
[3]基于神經網絡的聲紋識別研究[D]. 邱子璇.電子科技大學 2019
[4]基于深度學習的聲音事件識別研究[D]. 王詩佳.東南大學 2018
[5]基于注意力機制的聲音場景深度分類模型研究[D]. 夏子琪.浙江大學 2018
[6]基于多通道的分層特征提取的圖像識別[D]. 祝璞.中國科學技術大學 2016
本文編號:2935429
本文鏈接:http://www.sikaile.net/kejilunwen/xinxigongchenglunwen/2935429.html