語音情感識別及在人機對話系統(tǒng)中的應用研究
發(fā)布時間:2023-08-20 09:40
隨著人機交互的逐漸發(fā)展,語音作為快速、直接的交流方式,使機器理解語音交互過程中的情感變得更加迫切。由于語言差異、記錄語音的環(huán)境不同、語音有效情感特征的不確定性和語音存在的噪音等導致富情感的語音特征缺乏有效的提取影響了語音情感識別的效率和有效性;跈C器學習的語音情感識別方法,只能提取特定的特征集作為模型的輸入;谏疃葘W習的語音情感識別可以避免上述特征工程,并自動提取語音特征,但這些大量的語音特征會使模型的識別效率降低,富情感的語音特征得不到有效的提取。本文旨在對特定特征的提取和融合,并基于深度學習算法,研究具有較強泛化能力、高效的語音情感識別方法,并將語音情感識別應用于人機對話系統(tǒng)。在語音情感識別中,有效提取富情感的語音特征是情感識別成功的關鍵。本文提出互補特征提取方法,并對該方法的有效性進行驗證。在語料庫方面,語料庫是驗證方法可靠性的重要元素,本文基于兩種常用語料庫和一種較新的語料庫進行模型的訓練與驗證。在情感識別算法方面,高效的分類模型算法決定了語音情感識別方法是否有效。本文結合三種語音情感識別語料庫,完成特征提取后,將其作為深度學習識別模型的輸入。深度學習模型采用了高效的卷積神...
【文章頁數(shù)】:90 頁
【學位級別】:碩士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 研究工作的背景與意義
1.2 研究現(xiàn)狀
1.2.1 語音情感識別的研究現(xiàn)狀
1.2.2 人機對話的研究現(xiàn)狀
1.2.3 語音情感識別在人機對話系統(tǒng)中的應用
1.3 本文研究內(nèi)容
1.4 本文組織結構
1.5 本章小結
第二章 語音情感識別概述
2.1 引言
2.2 語音情感識別語料庫
2.2.1 人類語音情感數(shù)據(jù)庫
2.2.2 常用語音情感識別語料庫
2.3 語音情感特征
2.3.1 頻譜特征
2.3.2 韻律特征
2.3.3 非線性特征
2.3.4 其他特征
2.4 語音情感識別方法
2.5 本章小結
第三章 特征提取方法研究
3.1 引言
3.2 快速傅里葉變換
3.3 短時傅里葉變換
3.4 特征提取
3.4.1 MFCC特征
3.4.2 Melspectrogram特征
3.4.3 Chroma特征
3.4.4 Tonal Centroid特征
3.4.5 Spectral contrast特征
3.5 互補特征
3.6 本章小結
第四章 基于1D CNN的語音情感識別
4.1 引言
4.2 計算結果指標
4.3 語音情感實驗數(shù)據(jù)集
4.4 語音情感識別架構
4.4.1 架構相關介紹
4.4.2 NACNN方法實驗
4.4.3 NACNN+LogMels方法實驗
4.4.4 NACNN+LogMels*方法實驗
4.5 實驗總結
4.6 本章小結
第五章 ECM人機對話
5.1 引言
5.2 任務定義及概覽
5.3 編碼解碼框架
5.3.1 SeqToSeq模型
5.3.2 Gated Recurrent Unit
5.4 情感分類嵌入
5.5 內(nèi)外部記憶
5.6 本章小結
第六章 語音情感識別在人機對話系統(tǒng)中的應用
6.1 引言
6.2 需求分析
6.2.1 功能需求
6.2.2 系統(tǒng)開發(fā)環(huán)境
6.3 系統(tǒng)設計
6.4 實現(xiàn)與展示
6.4.1 功能展示
6.5 本章小結
第七章 總結與展望
7.1 論文總結
7.2 工作展望
致謝
參考文獻
攻碩期間取得的成果
本文編號:3842970
【文章頁數(shù)】:90 頁
【學位級別】:碩士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 研究工作的背景與意義
1.2 研究現(xiàn)狀
1.2.1 語音情感識別的研究現(xiàn)狀
1.2.2 人機對話的研究現(xiàn)狀
1.2.3 語音情感識別在人機對話系統(tǒng)中的應用
1.3 本文研究內(nèi)容
1.4 本文組織結構
1.5 本章小結
第二章 語音情感識別概述
2.1 引言
2.2 語音情感識別語料庫
2.2.1 人類語音情感數(shù)據(jù)庫
2.2.2 常用語音情感識別語料庫
2.3 語音情感特征
2.3.1 頻譜特征
2.3.2 韻律特征
2.3.3 非線性特征
2.3.4 其他特征
2.4 語音情感識別方法
2.5 本章小結
第三章 特征提取方法研究
3.1 引言
3.2 快速傅里葉變換
3.3 短時傅里葉變換
3.4 特征提取
3.4.1 MFCC特征
3.4.2 Melspectrogram特征
3.4.3 Chroma特征
3.4.4 Tonal Centroid特征
3.4.5 Spectral contrast特征
3.5 互補特征
3.6 本章小結
第四章 基于1D CNN的語音情感識別
4.1 引言
4.2 計算結果指標
4.3 語音情感實驗數(shù)據(jù)集
4.4 語音情感識別架構
4.4.1 架構相關介紹
4.4.2 NACNN方法實驗
4.4.3 NACNN+LogMels方法實驗
4.4.4 NACNN+LogMels*方法實驗
4.5 實驗總結
4.6 本章小結
第五章 ECM人機對話
5.1 引言
5.2 任務定義及概覽
5.3 編碼解碼框架
5.3.1 SeqToSeq模型
5.3.2 Gated Recurrent Unit
5.4 情感分類嵌入
5.5 內(nèi)外部記憶
5.6 本章小結
第六章 語音情感識別在人機對話系統(tǒng)中的應用
6.1 引言
6.2 需求分析
6.2.1 功能需求
6.2.2 系統(tǒng)開發(fā)環(huán)境
6.3 系統(tǒng)設計
6.4 實現(xiàn)與展示
6.4.1 功能展示
6.5 本章小結
第七章 總結與展望
7.1 論文總結
7.2 工作展望
致謝
參考文獻
攻碩期間取得的成果
本文編號:3842970
本文鏈接:http://www.sikaile.net/kejilunwen/xinxigongchenglunwen/3842970.html
最近更新
教材專著