語(yǔ)音情感識(shí)別中的特征提取與識(shí)別算法研究
發(fā)布時(shí)間:2017-09-28 09:36
本文關(guān)鍵詞:語(yǔ)音情感識(shí)別中的特征提取與識(shí)別算法研究
更多相關(guān)文章: 語(yǔ)音情感識(shí)別 譜特征 特征選擇 Softmax 集成分類器 稀疏表示分類
【摘要】:隨著電子技術(shù)的廣泛發(fā)展,用戶已經(jīng)不再滿足于只使用鍵盤、鼠標(biāo)、開(kāi)關(guān)等機(jī)械的冷冰冰的交互方式。雖然說(shuō)最近觸摸屏技術(shù)得到快速的發(fā)展,使人機(jī)交互更便捷,操作形式更多樣,但是人們普遍希望人機(jī)交互過(guò)程更人性化、更智能化,人機(jī)交互界面更友好、更生動(dòng),這樣必然需要計(jì)算機(jī)具有與人相似的思維感知能力。顯然,使計(jì)算機(jī)能夠理解人類的情感是完成上述任務(wù)非常重要的一步。語(yǔ)音作為人類交流的重要媒介,是人類傳遞信息的最基本途徑;另外,目前針對(duì)語(yǔ)音的傳感器已經(jīng)發(fā)展得非常成熟,在獲取人類語(yǔ)音信號(hào)時(shí),幾乎不需要當(dāng)事人的任何配合。所以語(yǔ)音情感識(shí)別就顯得尤為重要。語(yǔ)音情感識(shí)別的目的是使計(jì)算機(jī)從人類的語(yǔ)音信號(hào)中發(fā)現(xiàn)人的當(dāng)前情感狀態(tài),讓機(jī)器能理解人的感性思維,從而使計(jì)算機(jī)具有更人性化更復(fù)雜的功能。語(yǔ)音情感識(shí)別是一種典型的模式識(shí)別問(wèn)題,通常包括三個(gè)關(guān)鍵的步驟:語(yǔ)音特征提取,維數(shù)約減,分類。本文針對(duì)這三個(gè)步驟都做了一定研究,主要貢獻(xiàn)有:(1)本文提出一種基于Hu矩的加權(quán)譜特征(HuWSF)。特征提取算法對(duì)語(yǔ)音情感識(shí)別算法的影響非常大,其中Mel頻率倒譜系數(shù)(Mel-frequency Cepstral Coefficients,MFCC)是語(yǔ)音情感識(shí)別中最常用的特征。但是MFCC沒(méi)有考慮同一幀Mel濾波結(jié)果相鄰系數(shù)之間的關(guān)系以及同一幀Mel濾波結(jié)果同一系數(shù)相鄰幀之間的關(guān)系,這樣可能會(huì)丟失語(yǔ)譜圖中較多有用的信息。Hu WSF能夠克服MFCC的上述缺點(diǎn)。動(dòng)機(jī)來(lái)源于兩方面:首先,在不同的語(yǔ)音情感下,說(shuō)話強(qiáng)度、說(shuō)話清晰度、基音頻率的變化程度、說(shuō)話速度等都有著非常明顯的變化,這些變化會(huì)改變語(yǔ)譜圖中能量集中到某些頻率的程度。而在語(yǔ)譜圖的局部區(qū)域計(jì)算的Hu矩,能夠很好的評(píng)價(jià)能量如何集中到語(yǔ)譜圖中的一些頻率的程度。其次,語(yǔ)音情感識(shí)別很容易受到說(shuō)話人、說(shuō)話風(fēng)格、說(shuō)話內(nèi)容的不同的影響。而Hu矩具有平移、尺度、旋轉(zhuǎn)不變形,使得Hu WSF能夠很好的減少這些負(fù)面影響。通過(guò)在柏林語(yǔ)音數(shù)據(jù)庫(kù)(Berlin emotional speech database,Emo DB),Surrey視聽(tīng)表情情感數(shù)據(jù)庫(kù)(Surrey Audio-Visual Expressed Emotion Database,SAVEE),中科院自動(dòng)化所語(yǔ)音情感數(shù)據(jù)庫(kù)(CASIA)等三個(gè)數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)證明了Hu WSF的有效性。(2)本文提出了一種基于半監(jiān)督特征選擇和說(shuō)話人歸一化的語(yǔ)音情感識(shí)別方法。特征選擇算法是語(yǔ)音情感識(shí)別中最常用的維數(shù)約簡(jiǎn)算法,但是目前用在語(yǔ)音情感識(shí)別中的大部分特征選擇算法都是基于貪心算法的有監(jiān)督的特征選擇算法,不能夠考慮數(shù)據(jù)的整體結(jié)構(gòu)、數(shù)據(jù)的流形結(jié)構(gòu)、以及無(wú)標(biāo)簽樣本提供的信息。為了克服上述缺點(diǎn),本文提出一種半監(jiān)督的特征選擇算法,該算法能夠同時(shí)利用上述所有信息。但是因?yàn)檎Z(yǔ)音情感數(shù)據(jù)的流形結(jié)構(gòu)受到多種因素的影響,如情感、說(shuō)話人、語(yǔ)句的內(nèi)容等,導(dǎo)致使用數(shù)據(jù)流形結(jié)構(gòu)的特征選擇算法并不能直接用于語(yǔ)音情感識(shí)別。所以在使用半監(jiān)督特征選擇算法之前,應(yīng)該先減少其它因素對(duì)語(yǔ)音特征提取結(jié)果的影響。說(shuō)話人歸一化算法是常見(jiàn)的減少說(shuō)話人對(duì)語(yǔ)音情感識(shí)別影響的方法,但是傳統(tǒng)的說(shuō)話人歸一化算法每個(gè)測(cè)試說(shuō)話人都需要較多的無(wú)標(biāo)簽樣本,這在大部分實(shí)際應(yīng)用環(huán)境中難以實(shí)現(xiàn)。為了克服這個(gè)缺點(diǎn),本文提出一種兩階段的說(shuō)話人歸一化算法。第一階段使用所有訓(xùn)練樣本的均值和方差對(duì)語(yǔ)音數(shù)據(jù)歸一化,第二階段只使用新的測(cè)試說(shuō)話人的均值對(duì)語(yǔ)音數(shù)據(jù)歸一化。因?yàn)榫翟跉w一化中只用為偏移量,使得歸一化的結(jié)果受均值的影響相對(duì)不敏感,這樣就可以使用少量的樣本獲得較好的說(shuō)話人歸一化效果。在Emo DB、SAVEE、CASIA等三個(gè)數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)結(jié)果,證明了上述算法的有效性。(3)本文提出了一種集成Softmax回歸模型的語(yǔ)音情感識(shí)別(ESSER)方法。目前已經(jīng)有較多的集成分類器用于語(yǔ)音情感識(shí)別,但是這些集成分類器依然面臨著較多的問(wèn)題,如基分類器的多樣性不能保證、基分類器的強(qiáng)度不足、維數(shù)災(zāi)難等。為了克服上述問(wèn)題,本文提出ESSER識(shí)別語(yǔ)音情感。首先注意到一些特征提取算法的原理相差較大、以及單個(gè)特征并不能充分描述語(yǔ)音信號(hào),所以使用不同的特征組合生成子空間,可以確保子空間的多樣性;同時(shí)因?yàn)樽涌臻g的維度比所有特征連接成的特征維度要低,這樣在一定程度上也克服了維數(shù)災(zāi)難的問(wèn)題。然后注意到在子空間的多樣性得到保證時(shí),使用強(qiáng)的分類器可以提升集成分類器的效果;并且發(fā)現(xiàn)在大部分語(yǔ)音情感數(shù)據(jù)庫(kù)上,Softmax都有較強(qiáng)的語(yǔ)音情感識(shí)別能力;所以使用Softmax作為集成分類器的基分類器。另外因?yàn)镾oftmax的分類結(jié)果是測(cè)試樣本到各個(gè)類的概率,所以使用Softmax作為集成分類器的基分類器還可以為基分類器的集成提供更多的信息。在Emo DB、SAVEE、FAC Aibo等三個(gè)數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)結(jié)果,證明了該算法的有效性。(4)本文提出了一種基于流形學(xué)習(xí)和稀疏表示分類的語(yǔ)音情感識(shí)別方法。目前已經(jīng)有一些基于稀疏表示的分類器用于語(yǔ)音情感識(shí)別,但是這些方法要么直接將原始數(shù)據(jù)用為字典,要么針對(duì)每個(gè)類單獨(dú)訓(xùn)練字典,從而不能充分利用訓(xùn)練數(shù)據(jù)的類別標(biāo)簽。為了克服這個(gè)缺點(diǎn),本文提出一種有監(jiān)督維數(shù)約減算法學(xué)習(xí)字典,這樣可以使字典攜帶較多的分類信息;同時(shí)又減小了字典的基的維度,可以大大加快稀疏表示分類的速度。但是因?yàn)檎Z(yǔ)音情感特征受到較多因素的影響,如說(shuō)話人、說(shuō)話風(fēng)格以及說(shuō)話內(nèi)容等,導(dǎo)致同一情感的樣本之間的距離可能較大,使得在優(yōu)化這些樣本之間的距離時(shí),對(duì)傳統(tǒng)的有監(jiān)督的維數(shù)約減算法的目標(biāo)函數(shù)影響較大,所以傳統(tǒng)算法不能直接用來(lái)學(xué)習(xí)字典。為了克服上述缺點(diǎn),本文提出一種新的有監(jiān)督維數(shù)約減算法,該算法在計(jì)算類內(nèi)矩陣、類間矩陣、以及樣本之間的流形結(jié)構(gòu)時(shí)均考慮了數(shù)據(jù)的局部性,避免了優(yōu)化同一情感樣本之間的距離對(duì)目標(biāo)函數(shù)造成的較大影響。另外為了使語(yǔ)音數(shù)據(jù)的情感流形結(jié)構(gòu)更突出,該算法使用自調(diào)整點(diǎn)對(duì)點(diǎn)之間的距離描述樣本之間的關(guān)系。最后,為了充分利用有監(jiān)督維數(shù)約減算法學(xué)習(xí)到的字典的信息,本文改進(jìn)現(xiàn)有的加權(quán)稀疏表示分類算法,對(duì)稀疏表示系數(shù)加權(quán)時(shí)使用自調(diào)整點(diǎn)對(duì)點(diǎn)之間的距離。在Emo DB、SAVEE、CASIA等三個(gè)數(shù)據(jù)上實(shí)驗(yàn)證明了這些算法的有效性。
【關(guān)鍵詞】:語(yǔ)音情感識(shí)別 譜特征 特征選擇 Softmax 集成分類器 稀疏表示分類
【學(xué)位授予單位】:華南理工大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2015
【分類號(hào)】:TN912.34
【目錄】:
- 摘要5-8
- Abstract8-19
- 第一章.緒論19-25
- 1.1.引言19-20
- 1.2.面臨的挑戰(zhàn)20-21
- 1.3.本文的研究?jī)?nèi)容、目標(biāo)、及創(chuàng)新點(diǎn)21-23
- 1.4.本文的內(nèi)容安排23-25
- 第二章.語(yǔ)音情感識(shí)別技術(shù)的綜述25-38
- 2.1.語(yǔ)音情感識(shí)別技術(shù)的綜述25-30
- 2.1.1 韻律特征25-26
- 2.1.2 譜特征26-27
- 2.1.3 其它特征27-30
- 2.2.語(yǔ)音特征的維數(shù)約減算法30-31
- 2.2.1 降維算法30
- 2.2.2 特征選擇算法30-31
- 2.3.語(yǔ)音情感的分類模型31-34
- 2.3.1 層次分類器32
- 2.3.2 集成分類器32-33
- 2.3.3 單個(gè)分類器33-34
- 2.4.語(yǔ)音數(shù)據(jù)庫(kù)34-37
- 2.4.1 語(yǔ)音數(shù)據(jù)庫(kù)的評(píng)價(jià)標(biāo)準(zhǔn)35
- 2.4.2 已知可用的語(yǔ)音情感數(shù)據(jù)庫(kù)35-36
- 2.4.3 本文實(shí)驗(yàn)部分使用的語(yǔ)音情感數(shù)據(jù)庫(kù)36-37
- 2.5.本章小結(jié)37-38
- 第三章.基于局部Hu矩的加權(quán)譜特征38-61
- 3.1.引言38-39
- 3.2.基于局部Hu矩的加權(quán)譜特征39-46
- 3.2.1 Hu矩的背景39
- 3.2.2 Hu WSF算法39-43
- 3.2.3 對(duì)Hu WSF算法的分析43-46
- 3.3.與Hu WSF相關(guān)的特征46-48
- 3.3.1 譜特征47
- 3.3.2 韻律特征47-48
- 3.4.用于評(píng)價(jià)Hu WSF的語(yǔ)音情感識(shí)別框架48-49
- 3.4.1 特征統(tǒng)計(jì)49
- 3.4.2 維數(shù)約減49
- 3.4.3 分類49
- 3.5.實(shí)驗(yàn)49-59
- 3.5.1 語(yǔ)音情感數(shù)據(jù)庫(kù)和評(píng)價(jià)標(biāo)準(zhǔn)49-50
- 3.5.2 對(duì)比的特征50
- 3.5.3 選擇合適的維數(shù)約減算法50-51
- 3.5.4 特征提取方法參數(shù)設(shè)置51-52
- 3.5.5 說(shuō)話人獨(dú)立的實(shí)驗(yàn)結(jié)果52-56
- 3.5.6 說(shuō)話人依賴的實(shí)驗(yàn)結(jié)果56-59
- 3.6.本章小結(jié)59-61
- 第四章.基于半監(jiān)督特征選擇和說(shuō)話人歸一化的語(yǔ)音情感識(shí)別61-85
- 4.1.引言61-62
- 4.2.理論基礎(chǔ)62-65
- 4.2.1 多類簇特征選擇算法(MCFS)62-64
- 4.2.2 數(shù)據(jù)內(nèi)在維度的獲取64-65
- 4.3.半監(jiān)督多類簇特征選擇65-68
- 4.3.1 半監(jiān)督特征選擇的問(wèn)題65-66
- 4.3.2 半監(jiān)督多類簇特征選擇的數(shù)據(jù)內(nèi)在維度的獲取66-68
- 4.4.說(shuō)話人歸一化68-70
- 4.5.使用SSMCFS與說(shuō)話人歸一化的語(yǔ)音情感識(shí)別70-71
- 4.5.1 特征提取70
- 4.5.2 分類70
- 4.5.3 使用的語(yǔ)音情感識(shí)別框架70-71
- 4.6.實(shí)驗(yàn)71-84
- 4.6.1 對(duì)比的特征選擇方法71-72
- 4.6.2 執(zhí)行方法和評(píng)價(jià)標(biāo)準(zhǔn)72-73
- 4.6.3 說(shuō)話人獨(dú)立實(shí)驗(yàn)73-81
- 4.6.4 對(duì)比本章的說(shuō)話人歸一化算法與傳統(tǒng)的說(shuō)話人歸一化算法81-83
- 4.6.5 說(shuō)話人依賴實(shí)驗(yàn)83-84
- 4.7.本章小結(jié)84-85
- 第五章.基于集成Softmax回歸模型的語(yǔ)音情感識(shí)別85-106
- 5.1.引言85-86
- 5.2.基于集成Softmax回歸的語(yǔ)音情感識(shí)別(ESSER)86-94
- 5.2.1 特征提取87-88
- 5.2.2 特征統(tǒng)計(jì)88-89
- 5.2.3 特征選擇89-90
- 5.2.4 集成分類器90-94
- 5.3.在不平衡數(shù)據(jù)中使用ESSER94-96
- 5.4.實(shí)驗(yàn)96-105
- 5.4.1 對(duì)比的方法96
- 5.4.2 執(zhí)行結(jié)果的評(píng)價(jià)準(zhǔn)則96-97
- 5.4.3 在Emo DB上的實(shí)驗(yàn)結(jié)果97-100
- 5.4.4 在SAVEE數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)結(jié)果100-102
- 5.4.5 在FAC Aibo數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)結(jié)果102-105
- 5.5.本章小結(jié)105-106
- 第六章.基于流形學(xué)習(xí)和稀疏表示分類的語(yǔ)音情感識(shí)別106-126
- 6.1.引言106-108
- 6.2.理論基礎(chǔ)108-110
- 6.2.1 有監(jiān)督維數(shù)約減算法的一般形式108
- 6.2.2 增強(qiáng)半監(jiān)督局部Fisher判別分析(ESLF)108-109
- 6.2.3 稀疏表示分類(SRC)109
- 6.2.4 加權(quán)稀疏表示分類(WSRC)109-110
- 6.3.基于局部重構(gòu)和局部Fisher判別的有監(jiān)督維數(shù)約減(LRLFDSDR)110-112
- 6.3.1 LRLFDSDR的目標(biāo)方程110-111
- 6.3.2 目標(biāo)方程的優(yōu)化111-112
- 6.3.3 LRLFDSDR的算法流程112
- 6.4.自適應(yīng)加權(quán)稀疏表示分類(AWSRC)112-114
- 6.5.語(yǔ)音情感識(shí)別框架114-115
- 6.5.1 特征提取114-115
- 6.5.2 特征統(tǒng)計(jì)115
- 6.6.實(shí)驗(yàn)115-124
- 6.6.1 對(duì)比的算法與實(shí)驗(yàn)設(shè)置115-116
- 6.6.2 說(shuō)話人獨(dú)立實(shí)驗(yàn)116-120
- 6.6.3 說(shuō)話人依賴實(shí)驗(yàn)120-124
- 6.7.本章小結(jié)124-126
- 結(jié)論126-130
- 參考文獻(xiàn)130-145
- 攻讀博士學(xué)位期間取得的研究成果145-147
- 致謝147-149
- 附件149
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前1條
1 韋佳;彭宏;;基于局部與全局保持的半監(jiān)督維數(shù)約減方法[J];軟件學(xué)報(bào);2008年11期
,本文編號(hào):935112
本文鏈接:http://www.sikaile.net/shoufeilunwen/xxkjbs/935112.html
最近更新
教材專著