高斯混合模型用于語音情感識別研究
發(fā)布時(shí)間:2017-08-16 04:11
本文關(guān)鍵詞:高斯混合模型用于語音情感識別研究
更多相關(guān)文章: 語音情感識別 特征提取 支持向量機(jī)(SVM) 高斯混合模型(GMM) 期望最大化(EM)
【摘要】:語音情感識別技術(shù)是人工智能(AI)領(lǐng)域的一個(gè)重要分支,該技術(shù)是通過對語音信號進(jìn)行分析處理來識別說話者當(dāng)時(shí)的情感狀態(tài)。隨著計(jì)算機(jī)科學(xué)技術(shù)與其他學(xué)科如生理學(xué)、心理學(xué)、統(tǒng)計(jì)學(xué)等相互交叉和發(fā)展,語音情感識別技術(shù)獲得了顯著的進(jìn)展。情感自身具有主觀性和復(fù)雜性,對情感進(jìn)行建模,開展情感計(jì)算研究具有重大的理論和實(shí)踐意義。隨著計(jì)算機(jī)技術(shù)和機(jī)器智能技術(shù)的發(fā)展,越來越多的人工智能設(shè)備和產(chǎn)品將會被開發(fā)出來,并會在社會生活的各個(gè)領(lǐng)域中得到廣泛的應(yīng)用,如教育行業(yè)、醫(yī)學(xué)界、服務(wù)行業(yè)和工業(yè)等領(lǐng)域。本文采用高斯混合模型,對語音情感識別問題做了較系統(tǒng)的研究。首先,基于情感理論基礎(chǔ)知識確立了本文的實(shí)驗(yàn)語料庫,并選取了四種基本情感狀態(tài)作為本文的研究對象,即生氣、高興、恐懼、悲傷。接著對語音信號進(jìn)行預(yù)處理操作,便于提取更為有效的情感特征。其次,鑒于語音情感特征提取的好壞將會直接影響識別的效果,所以本文的特征參數(shù)提取兼顧韻律學(xué)、音質(zhì)以及譜等三個(gè)方面,這些特征分別是語速、短時(shí)能量、基音頻率、共振峰參數(shù)以及Mel頻率倒譜系數(shù)(MFCC)五類特征,對這一系列特征進(jìn)行提取計(jì)算和分析研究,最終確定了21種語音情感特征作為高斯混合模型(GMM)的輸入?yún)?shù)。再次,通過選取不同的情感特征和不同的識別模型進(jìn)行實(shí)驗(yàn),尋找能區(qū)分各種情感的有效情感特征。本文先選用支持向量機(jī)(SVM)模型進(jìn)行識別,通過對比不同的核函數(shù)的識別效果決定選用線性核,并且使用網(wǎng)格搜索法確定了用于識別的最優(yōu)參數(shù);然后采用層次模型決策樹、分層模型分別進(jìn)行識別。最后,利用已確定的21種語音情感特征和高斯混合模型在語料庫的訓(xùn)練數(shù)據(jù)集上對四種基本情感建立識別模型。在建模的過程中,使用到了極大似然估計(jì)(MLE)和期望最大化(EM)算法對高斯混合模型的參數(shù)進(jìn)行優(yōu)化。在進(jìn)行優(yōu)化訓(xùn)練的過程中,極大似然估計(jì)詳細(xì)推演了期望最大化算法迭代并直到最后收斂的過程。最終確定了最優(yōu)的高斯混合模型,并使用該模型在測試數(shù)據(jù)集上進(jìn)行了識別實(shí)驗(yàn)。同時(shí)對其他三種識別模型(即支持向量機(jī)、決策樹和分層模型)的實(shí)驗(yàn)結(jié)果做了詳細(xì)的分析,最后通過對比分析四種模型的實(shí)驗(yàn)結(jié)果說明了使用高斯混合模型在本文選取的四種基本情感進(jìn)行識別時(shí)具有更強(qiáng)的區(qū)分能力,同時(shí)也驗(yàn)證了期望最大化算法的參數(shù)估計(jì)對高斯混合模型的識別率具有重大影響。
【關(guān)鍵詞】:語音情感識別 特征提取 支持向量機(jī)(SVM) 高斯混合模型(GMM) 期望最大化(EM)
【學(xué)位授予單位】:廣西師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TN912.34
【目錄】:
- 摘要3-5
- Abstract5-9
- 第一章 緒論9-13
- 1.1 語音情感識別研究背景及意義9-10
- 1.2 語音情感識別歷史概述10-11
- 1.3 語音情感識別國內(nèi)外研究現(xiàn)狀11-12
- 1.4 語音情感識別所面臨的問題12
- 1.5 論文的章節(jié)安排12-13
- 第二章 情感理論的基礎(chǔ)13-19
- 2.1 情感的定義13
- 2.2 情感的分類13-16
- 2.2.1 離散情感模型13-14
- 2.2.2 維度情感模型14-16
- 2.2.3 兩種情感模型的比較16
- 2.3 情感語料庫的建立16-18
- 2.3.1 代表性的情感語料庫介紹16-17
- 2.3.2 本文選用的語料庫17-18
- 2.4 本章小結(jié)18-19
- 第三章 語音信號的預(yù)處理和情感特征參數(shù)的提取19-36
- 3.1 語音信號的預(yù)處理19-24
- 3.1.1 預(yù)加重處理19-20
- 3.1.2 分幀加窗處理20-23
- 3.1.3 語音信號的端點(diǎn)檢測23-24
- 3.2 語音情感特征的提取24-35
- 3.2.1 語速25
- 3.2.2 短時(shí)能量25-29
- 3.2.3 基音頻率29-32
- 3.2.4 共振峰32-33
- 3.2.5 Mel頻率倒譜系數(shù)33-35
- 3.3 本章小結(jié)35-36
- 第四章 語音情感的識別模型36-47
- 4.1 支持向量機(jī)36-42
- 4.1.1 支持向量機(jī)理論36-39
- 4.1.2 支持向量機(jī)多分類39-40
- 4.1.3 實(shí)驗(yàn)及結(jié)果分析40-42
- 4.2 層次模型42-45
- 4.2.1 決策樹基本流程42-43
- 4.2.2 決策樹實(shí)驗(yàn)及結(jié)果分析43-44
- 4.2.3 分層模型實(shí)驗(yàn)及結(jié)果分析44-45
- 4.3 本章小結(jié)45-47
- 第五章 語音基本情感的高斯混合模型47-55
- 5.1 高斯混合模型的理論基礎(chǔ)47
- 5.2 語音基本情感的高斯混合模型的實(shí)驗(yàn)47-53
- 5.2.1 GMM模型參數(shù)初始化48
- 5.2.2 GMM模型參數(shù)估計(jì)48-52
- 5.2.3 GMM模型的語音基本情感識別52-53
- 5.3 實(shí)驗(yàn)結(jié)果分析53-54
- 5.4 本章小結(jié)54-55
- 第六章 總結(jié)和展望55-57
- 6.1 總結(jié)55
- 6.2 展望55-57
- 參考文獻(xiàn)57-61
- 致謝61-62
本文編號:681363
本文鏈接:http://www.sikaile.net/kejilunwen/xinxigongchenglunwen/681363.html
最近更新
教材專著