復(fù)雜場(chǎng)景下的音頻序列切分是對(duì)音頻做深度處理的基礎(chǔ)和前提,對(duì)音頻后續(xù)處理工作具有重要的影響。在許多實(shí)際應(yīng)用的場(chǎng)景中,如語(yǔ)音識(shí)別系統(tǒng)、說(shuō)話人識(shí)別系統(tǒng)和語(yǔ)音自動(dòng)標(biāo)注系統(tǒng)等,首要任務(wù)是對(duì)輸入語(yǔ)音信號(hào)進(jìn)行精確檢測(cè),找出語(yǔ)音段的起始和終止點(diǎn)。目前很多音頻分割的研究工作面向純凈的語(yǔ)音信號(hào)展開,但是對(duì)于含有背景噪音的音頻無(wú)法做出準(zhǔn)確的分割。針對(duì)研究工作的需要,構(gòu)建了復(fù)雜場(chǎng)景下的音頻序列數(shù)據(jù)集。通過(guò)對(duì)采集到的復(fù)雜場(chǎng)景下的中小學(xué)教學(xué)音頻數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理和規(guī)范化標(biāo)注等工作,完成構(gòu)建了共計(jì)時(shí)長(zhǎng)62.32小時(shí)的語(yǔ)音語(yǔ)料,為復(fù)雜場(chǎng)景的音頻序列切分任務(wù)的研究奠定了數(shù)據(jù)基礎(chǔ)。針對(duì)復(fù)雜場(chǎng)景下的音頻序列切分問(wèn)題,完成了兩種音頻切分模型的構(gòu)建,分別是基于深度學(xué)習(xí)的單一模型以及基于深度學(xué)習(xí)和貝葉斯信息選擇的混合模型。單一模型以深度殘差網(wǎng)絡(luò)(Res Net)為模型結(jié)構(gòu),由于聲學(xué)特征以語(yǔ)譜圖的形式呈現(xiàn),考慮到深度殘差網(wǎng)絡(luò)在圖像處理中的優(yōu)異性能,我們將深度殘差網(wǎng)絡(luò)引入語(yǔ)音的切分任務(wù)中,并在已有的復(fù)雜場(chǎng)景數(shù)據(jù)集和純凈的公開數(shù)據(jù)集上分別開展實(shí)驗(yàn),通過(guò)三種深度學(xué)習(xí)模型和兩種機(jī)器學(xué)習(xí)模型的對(duì)比實(shí)驗(yàn)結(jié)果驗(yàn)證了深度殘差網(wǎng)絡(luò)在該任務(wù)上的優(yōu)越性...
【文章頁(yè)數(shù)】:62 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:

圖1-1MFCC特征提取流程
10()()()()NjjmjmnnmmXexmwnmexme(1-語(yǔ)音的線性預(yù)測(cè)分析就是將語(yǔ)音的采樣值通過(guò)過(guò)去若干采樣值的線性組合,因此決定唯一的預(yù)測(cè)系數(shù),該預(yù)測(cè)系數(shù)LPC可以當(dāng)做語(yǔ)音信號(hào)的特征....

圖2-1二分類問(wèn)題
分方法中基于機(jī)器學(xué)習(xí)的模型主要介紹M),它們是機(jī)器學(xué)習(xí)方法中在語(yǔ)音識(shí)別領(lǐng)紹ortvectormachine,SVM)[16]是一種監(jiān)督學(xué)等問(wèn)題。支持向量機(jī)把每個(gè)實(shí)例映射成空間隔盡量大。支持向量機(jī)的基本模型是線實(shí)它實(shí)質(zhì)上是一種非線性模型,下面我會(huì)持向量機(jī)(linearsuppor....

圖2-2非線性分類數(shù)據(jù)
哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文分離超平面為:**wx+b0策函數(shù)為:**f(x)sign(wx+b)持分類器(linearsupportvectormachine),它運(yùn)用下,可以用軟間隔最大化進(jìn)行訓(xùn)練。支持向量機(jī)(non-linearsup....

圖2-3卷積層過(guò)濾器結(jié)構(gòu)示意圖
被添加在卷積層之間,通常他會(huì)改變feature池化層一般會(huì)導(dǎo)致矩陣的尺度縮小,完成一題的出現(xiàn)。經(jīng)常使用的有“最大池化(maxng)”。在圖像和語(yǔ)音領(lǐng)域中的效果顯著優(yōu)于其他深辨識(shí)、視訊分析、自然語(yǔ)言處理、藥物發(fā)現(xiàn)
本文編號(hào):
3932236
本文鏈接:http://www.sikaile.net/kejilunwen/wltx/3932236.html