基于卷積神經(jīng)網(wǎng)絡(luò)語音情感識別的研究與實現(xiàn)
發(fā)布時間:2021-04-14 16:58
近年來,隨著人工智能技術(shù)迅速的發(fā)展,人與機器的語音交互越來越智能化。人機交互中的語音情感識別已是目前人工智能領(lǐng)域研究熱點,使機器人擁有人一樣的情感狀態(tài),這也是未來發(fā)展的一個必然趨勢。本文主要研究基于卷積神經(jīng)網(wǎng)絡(luò)的語音情感識別算法。在卷積神經(jīng)網(wǎng)絡(luò)算法方面,本文先介紹了卷積神經(jīng)網(wǎng)絡(luò)的基本理論,隨后針對卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中的卷積核權(quán)值的更新算法進行改進,使卷積核權(quán)值的更新算法與迭代次數(shù)有關(guān)聯(lián),提高卷積神經(jīng)網(wǎng)絡(luò)的表達能力。在語音情感特征提取方面,本文介紹了常用的語音特征提取方法,選擇提取語音特征應(yīng)用最廣泛的梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficients,MFCC)方法進行實驗,同時為了增加情感語音之間的特征差異性,將語音信號經(jīng)過預(yù)處理后得到的梅爾頻率倒譜系數(shù)特征數(shù)據(jù)矩陣做變換,提高語音情感識別率。對上述改進卷積神經(jīng)網(wǎng)絡(luò)的語音情感識別模型進行實驗分析,實驗表明,改進后的語音情感識別算法的錯誤識別率比傳統(tǒng)算法減少約7%。除此之外,本文還在基于ARM(Advanced RISC Machines)的服務(wù)型機器人實現(xiàn)語音情感識別,設(shè)計了語音情感識別系統(tǒng)。根據(jù)...
【文章來源】:暨南大學(xué)廣東省 211工程院校
【文章頁數(shù)】:70 頁
【學(xué)位級別】:碩士
【部分圖文】:
卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
暨南大學(xué)碩士學(xué)位論文結(jié)構(gòu)模型進行語音情感識別時,結(jié)果輸出的向量一般不為二進制整數(shù),其取值都在 0-1間的小數(shù)。這時將輸出向量的數(shù)據(jù)進行對比,最接近整數(shù) 1 的分量則是對應(yīng)情感類別。如圖 4-3 所示列出在 Matlab 下仿真得到的實驗數(shù)據(jù),其為 240 句測試集中 10 句的情感別數(shù)據(jù),其中在輸出向量的 6 個分量中最接近 1 的則為對應(yīng)情感類別。由于數(shù)據(jù)量巨大, Matlab 下仿真直接計算出每一次測試的錯誤識別率,所以在后序?qū)嶒灁?shù)據(jù)分析中,本文接列出每一次測試的錯誤識別率。
圖 4-4 錯誤識別率對比曲線圖 4-4 的錯誤識別率對比曲線可以看到:1)傳統(tǒng) CNN (A1)模型雖然在第 21 次迭近收斂,但收斂不穩(wěn)定;線性改進 CNN (A1)模型在第 24 次迭代收斂并相對穩(wěn)定為卷積核權(quán)值每次更新的改變量都是隨著迭代次數(shù)的增加而逐漸遞減,因此隨著的增加而卷積核權(quán)值逐漸的變得穩(wěn)定,模型的識別率收斂穩(wěn)定,而且錯誤識別率的減少;2)同等訓(xùn)練條件下,增大輸入特征數(shù)據(jù)的線性改進 CNN (A2)模型在第開始收斂且穩(wěn)定,模型收斂速度更快,由于將輸入的特征數(shù)據(jù)增加一倍可以更好語音情感之間特征差異性,且錯誤識別率更低,因此收斂的更快。從圖 4-4 明顯提出的改進語音情感識別方法的優(yōu)勢。其中線性改進卷積神經(jīng)網(wǎng)絡(luò) CNN(A2)模型感識別詳細結(jié)果如表 4-21 所示。表 4-21 線性改進卷積神經(jīng)網(wǎng)絡(luò) CNN(A2)模型測試數(shù)據(jù)情感類別 樣本總數(shù) 訓(xùn)練數(shù)目 測試數(shù)目 錯誤識別數(shù)目 錯誤識別率生氣 200 160 40 9 22.50%害怕 200 160 40 25 62.50%
【參考文獻】:
期刊論文
[1]嵌入式系統(tǒng)發(fā)展概述[J]. 韋照川,李德明. 科技信息. 2010(01)
[2]嵌入式軟件發(fā)展趨勢[J]. 吳朝暉. 電子產(chǎn)品世界. 2005(03)
[3]語音情感特征提取和識別的研究與實現(xiàn)[J]. 詹永照,曹鵬. 江蘇大學(xué)學(xué)報(自然科學(xué)版). 2005(01)
[4]基于HMM的關(guān)鍵詞識別系統(tǒng)[J]. 李云霞,李治柱,吳亞棟. 計算機工程. 2004(07)
[5]語音信號中情感特征的分析和識別[J]. 余華,王治平,趙力. 電聲技術(shù). 2004(03)
[6]利用模糊熵進行參數(shù)有效性分析的語音情感識別[J]. 王治平,趙力,鄒采榮. 電路與系統(tǒng)學(xué)報. 2003(03)
[7]語音信號中的情感識別研究[J]. 趙力,錢向民,鄒采榮,吳鎮(zhèn)揚. 軟件學(xué)報. 2001(07)
[8]語音信號中的情感特征分析和識別的研究[J]. 趙力,錢向民,鄒采榮,吳鎮(zhèn)揚. 通信學(xué)報. 2000(10)
[9]包含在語音信號中情感特征的分析[J]. 錢向民. 電子技術(shù)應(yīng)用. 2000(05)
[10]人機交互技術(shù)研究新進展[J]. 方志剛,吳曉波,馬衛(wèi)娟. 計算機工程與設(shè)計. 1998(01)
碩士論文
[1]改進的GRBM在語音識別中的應(yīng)用研究[D]. 趙彩光.暨南大學(xué) 2015
[2]基于卷積神經(jīng)網(wǎng)絡(luò)的語音情感識別[D]. 陳曉東.華南理工大學(xué) 2015
[3]基于HTK的嵌入式語音識別系統(tǒng)設(shè)計與優(yōu)化[D]. 夏拓.華南理工大學(xué) 2012
[4]語音情感特征提取方法和情感識別研究[D]. 郭鵬娟.西北工業(yè)大學(xué) 2007
本文編號:3137680
【文章來源】:暨南大學(xué)廣東省 211工程院校
【文章頁數(shù)】:70 頁
【學(xué)位級別】:碩士
【部分圖文】:
卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
暨南大學(xué)碩士學(xué)位論文結(jié)構(gòu)模型進行語音情感識別時,結(jié)果輸出的向量一般不為二進制整數(shù),其取值都在 0-1間的小數(shù)。這時將輸出向量的數(shù)據(jù)進行對比,最接近整數(shù) 1 的分量則是對應(yīng)情感類別。如圖 4-3 所示列出在 Matlab 下仿真得到的實驗數(shù)據(jù),其為 240 句測試集中 10 句的情感別數(shù)據(jù),其中在輸出向量的 6 個分量中最接近 1 的則為對應(yīng)情感類別。由于數(shù)據(jù)量巨大, Matlab 下仿真直接計算出每一次測試的錯誤識別率,所以在后序?qū)嶒灁?shù)據(jù)分析中,本文接列出每一次測試的錯誤識別率。
圖 4-4 錯誤識別率對比曲線圖 4-4 的錯誤識別率對比曲線可以看到:1)傳統(tǒng) CNN (A1)模型雖然在第 21 次迭近收斂,但收斂不穩(wěn)定;線性改進 CNN (A1)模型在第 24 次迭代收斂并相對穩(wěn)定為卷積核權(quán)值每次更新的改變量都是隨著迭代次數(shù)的增加而逐漸遞減,因此隨著的增加而卷積核權(quán)值逐漸的變得穩(wěn)定,模型的識別率收斂穩(wěn)定,而且錯誤識別率的減少;2)同等訓(xùn)練條件下,增大輸入特征數(shù)據(jù)的線性改進 CNN (A2)模型在第開始收斂且穩(wěn)定,模型收斂速度更快,由于將輸入的特征數(shù)據(jù)增加一倍可以更好語音情感之間特征差異性,且錯誤識別率更低,因此收斂的更快。從圖 4-4 明顯提出的改進語音情感識別方法的優(yōu)勢。其中線性改進卷積神經(jīng)網(wǎng)絡(luò) CNN(A2)模型感識別詳細結(jié)果如表 4-21 所示。表 4-21 線性改進卷積神經(jīng)網(wǎng)絡(luò) CNN(A2)模型測試數(shù)據(jù)情感類別 樣本總數(shù) 訓(xùn)練數(shù)目 測試數(shù)目 錯誤識別數(shù)目 錯誤識別率生氣 200 160 40 9 22.50%害怕 200 160 40 25 62.50%
【參考文獻】:
期刊論文
[1]嵌入式系統(tǒng)發(fā)展概述[J]. 韋照川,李德明. 科技信息. 2010(01)
[2]嵌入式軟件發(fā)展趨勢[J]. 吳朝暉. 電子產(chǎn)品世界. 2005(03)
[3]語音情感特征提取和識別的研究與實現(xiàn)[J]. 詹永照,曹鵬. 江蘇大學(xué)學(xué)報(自然科學(xué)版). 2005(01)
[4]基于HMM的關(guān)鍵詞識別系統(tǒng)[J]. 李云霞,李治柱,吳亞棟. 計算機工程. 2004(07)
[5]語音信號中情感特征的分析和識別[J]. 余華,王治平,趙力. 電聲技術(shù). 2004(03)
[6]利用模糊熵進行參數(shù)有效性分析的語音情感識別[J]. 王治平,趙力,鄒采榮. 電路與系統(tǒng)學(xué)報. 2003(03)
[7]語音信號中的情感識別研究[J]. 趙力,錢向民,鄒采榮,吳鎮(zhèn)揚. 軟件學(xué)報. 2001(07)
[8]語音信號中的情感特征分析和識別的研究[J]. 趙力,錢向民,鄒采榮,吳鎮(zhèn)揚. 通信學(xué)報. 2000(10)
[9]包含在語音信號中情感特征的分析[J]. 錢向民. 電子技術(shù)應(yīng)用. 2000(05)
[10]人機交互技術(shù)研究新進展[J]. 方志剛,吳曉波,馬衛(wèi)娟. 計算機工程與設(shè)計. 1998(01)
碩士論文
[1]改進的GRBM在語音識別中的應(yīng)用研究[D]. 趙彩光.暨南大學(xué) 2015
[2]基于卷積神經(jīng)網(wǎng)絡(luò)的語音情感識別[D]. 陳曉東.華南理工大學(xué) 2015
[3]基于HTK的嵌入式語音識別系統(tǒng)設(shè)計與優(yōu)化[D]. 夏拓.華南理工大學(xué) 2012
[4]語音情感特征提取方法和情感識別研究[D]. 郭鵬娟.西北工業(yè)大學(xué) 2007
本文編號:3137680
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/3137680.html
最近更新
教材專著