智能家居環(huán)境中個性化語音生成關(guān)鍵技術(shù)研究
本文關(guān)鍵詞:智能家居環(huán)境中個性化語音生成關(guān)鍵技術(shù)研究,,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著物聯(lián)網(wǎng)的發(fā)展,各種智能家電如音像設(shè)備、照明系統(tǒng)、安防系統(tǒng)、自動控制門窗及環(huán)境自動調(diào)節(jié)系統(tǒng)、多功能家用機器人等,通過家居網(wǎng)絡(luò)平臺構(gòu)建了舒適的智能家居環(huán)境。智能家居的普及大大方便了人們的生活。智能家居網(wǎng)絡(luò)平臺中的語音控制技術(shù)提高了人與智能家居的信息交互能力和方便性。隨著語音識別技術(shù)的應(yīng)用,越來越多的智能家電逐步支持語音控制的能力,目前最新的研究是如何讓家居網(wǎng)絡(luò)平臺使用對話系統(tǒng),讓智能家居設(shè)備使用與家庭成員相同特征的語音和使用者進行交互,使這些設(shè)備具備個性化語音發(fā)聲的能力,從而提高智能家居使用的趣味性和幸福感。由于家庭成員的語音特征各不相同,此方面的研究仍是一個難題。語音合成技術(shù)是語音技術(shù)研究的一個重要組成部分,個性化語音生成是語音信號處理領(lǐng)域中一個相對較新的分支。通過個性化語音生成技術(shù),就可以使用目標對象少量的語音數(shù)據(jù),生成出具有目標對象個性化特征的語音。目前基于智能家居環(huán)境中個性化語音生成技術(shù)的研究,存在著當目標對象只有有限的采樣語音數(shù)據(jù)情況下,由于樣本數(shù)據(jù)庫較小及計算能力有限,生成出來的語音有機械感,在聲調(diào)和頻譜上失真,語音的自然度和相似度指標低,更不能實現(xiàn)轉(zhuǎn)換輸出多種語音或多種方言。所以,研究個性化語音生成技術(shù)具有重要的應(yīng)用價值。目前,在個性化語音生成方法中,以Tokuda、Huang為代表的基于隱馬爾可夫模型(Hidden Markov Models,HMM)建模是主流的語音生成方法,但該方法中的混合激勵模型中的參數(shù)采用了經(jīng)驗值估測,導(dǎo)致生成參數(shù)不精確。并且該模型中源說話人自適應(yīng)特征訓練過程不夠優(yōu)秀,損失了說話人的聲學特征差異,導(dǎo)致頻譜語音特征參數(shù)不準確,因此語音的自然度和相似度指標低,需要進一步研究如何提高合成語音的質(zhì)量。而且在智能家居語音生成技術(shù)中,使用多方言和智能家居實現(xiàn)人機對話,方便使用和具有親切感,因此研究多方言的轉(zhuǎn)換技術(shù)具有十分重要的意義;谝陨锨闆r,本文圍繞個性化語音生成技術(shù)主流的合成模型進行研究,提出了自適應(yīng)方法和聲音轉(zhuǎn)換新技術(shù),主要的研究內(nèi)容如下:為了提高個性化語音生成的自然度和相似度,減少語音的失真程度,本文改進了混合激勵模型中參數(shù)的獲取方法,以及混合激勵模型中的各個帶寬的濁音周期性比例提取方法,并將混合激勵參數(shù)與頻譜參數(shù)相結(jié)合,改進了隱馬爾可夫模型的混合激勵機制,該機制能明顯地改善生成語音的質(zhì)量。最后,實驗結(jié)果表明了本文改進方法的正確性和有效性。針對隱馬爾可夫模型中,源說話人自適應(yīng)特征訓練過程不夠優(yōu)秀,導(dǎo)致?lián)p失說話人聲學特征差異的問題,本文提出了基于時變雙線性函數(shù)的頻率彎折方法,改進了源說話人自適應(yīng)特征訓練過程。通過將傳統(tǒng)方法與頻譜彎折方法進行實驗對比,表明本文提出的頻率彎折方法可以使源語音頻譜更接近目標語音頻譜,減少說話人聲學特征的損失,所生成的語音在自然度和相似度上均得到提升。為了解決智能家居語音生成技術(shù)中多方言的轉(zhuǎn)換問題。本文在分析了經(jīng)典說話人轉(zhuǎn)換技術(shù)的基礎(chǔ)上,提出了基于神經(jīng)網(wǎng)絡(luò)的跨方言說話人轉(zhuǎn)換系統(tǒng)框架,基于該框架,使用一種預(yù)訓練方法,完成了基于語音序列感知的神經(jīng)網(wǎng)絡(luò)建模。本文實驗是以普通話和上海話的轉(zhuǎn)換為例,驗證了可以解決個性化語音生成技術(shù)中多方言的轉(zhuǎn)換問題。實驗結(jié)果顯示該方法是可行的。本文的主要創(chuàng)新研究成果如下:第一,本文首次系統(tǒng)地分析比較了在混合激勵模型中兩種周期性比例的提取方法:梳狀濾波器、歸一化相關(guān)系數(shù),并通過基于隱馬爾可夫模型的語音合成實驗,證明了使用混合激勵模型合成的語音質(zhì)量得到了顯著地提高。第二,本文提出的基于頻率彎折的說話人自適應(yīng)方法,可以顯著提升個性化語音生成的自然度和相似性。相較于傳統(tǒng)方法,本文的方法具有如下創(chuàng)新點:1)在源說話人和目標說話人間引入了最小化加權(quán)對數(shù)譜距離準則,取代使用最大似然準則對源說話人特征進行轉(zhuǎn)化,這一準則的應(yīng)用提高了所生成的個性化語音在感知上的相似度。2)引入雙線性彎折函數(shù)對頻域和時域進行平滑轉(zhuǎn)化,函數(shù)采用基于幀的彎折因子,更好地保留了語音時變的特征。3)重新訓練后的源說話人隱馬爾可夫模型獲得了更好的初始化。第三,本文首次提出了跨方言語音特征學習模型的方法和準則,實現(xiàn)了不同地方語言的說話人轉(zhuǎn)換。其創(chuàng)新點主要體現(xiàn)在以下三個方面:1)將獨立于語言的頻率彎折方法應(yīng)用在跨方言的說話人轉(zhuǎn)換中,從而大大地降低了所需的訓練數(shù)據(jù)量和計算復(fù)雜度;2)在神經(jīng)網(wǎng)絡(luò)訓練中采用了預(yù)訓練,從而使神經(jīng)網(wǎng)絡(luò)的權(quán)重能得到比隨機初始化更好的起點,從而提高了神經(jīng)網(wǎng)絡(luò)訓練算法的收斂速度;3)提出了基于語音序列感知的訓練準則,該準則能最大限度地減少序列級別的錯誤,大大提升了跨方言說話人語音轉(zhuǎn)換的性能。本文在個性化語音生成的相關(guān)技術(shù)方面進行了創(chuàng)新和改進,為智能家居環(huán)境中研究語音技術(shù)提供了研究思路和應(yīng)用借鑒。
【關(guān)鍵詞】:智能家居 個性化語音生成 隱馬爾可夫模型 多方言轉(zhuǎn)換 神經(jīng)網(wǎng)絡(luò)
【學位授予單位】:東華大學
【學位級別】:博士
【學位授予年份】:2015
【分類號】:TU855;TN912.3
【目錄】:
- 摘要4-7
- ABSTRACT7-14
- 第1章 緒論14-23
- 1.1 研究的背景與意義14-18
- 1.1.1 智能家居的概念和特點14-16
- 1.1.2 智能家居中的個性化語音16-17
- 1.1.3 個性化語音生成的意義17-18
- 1.2 國內(nèi)外研究現(xiàn)狀18-19
- 1.3 本文的研究內(nèi)容19-20
- 1.4 本文的創(chuàng)新點20-21
- 1.5 本文組織結(jié)構(gòu)21-23
- 第2章 個性化語音生成技術(shù)23-31
- 2.1 傳統(tǒng)的語音生成方法23-25
- 2.1.1 波形拼接合成方法23-24
- 2.1.2 基于隱馬爾可夫模型的合成方法24-25
- 2.2 個性化語音的特征25-26
- 2.3 個性化語音生成技術(shù)的分析26-27
- 2.4 智能家居環(huán)境中語音訓練數(shù)據(jù)的處理方法27-30
- 2.5 小結(jié)30-31
- 第3章 個性化語音合成中混合激勵模型的改進31-46
- 3.1 引言31-32
- 3.2 混合激勵模型在隱馬爾可夫模型的應(yīng)用32-37
- 3.3 混合激勵模型的改進37-42
- 3.3.1 混合激勵模型37-38
- 3.3.2 混合激勵參數(shù)的估計38-42
- 3.3.3 混合激勵模型的訓練42
- 3.4 實驗論證與結(jié)果分析42-45
- 3.4.1 實驗設(shè)置42-43
- 3.4.2 實驗結(jié)果與分析43-45
- 3.5 小結(jié)45-46
- 第4章 基于頻率彎折的說話人自適應(yīng)方法46-67
- 4.1 引言46-48
- 4.2 傳統(tǒng)的基于隱馬爾可夫模型的說話人自適應(yīng)方法48-53
- 4.3 針對說話人自適應(yīng)的頻率彎折方法53-58
- 4.3.1 通過頻譜頻率彎折進行聲道長度歸一化53-55
- 4.3.2 基于時變雙線性函數(shù)的頻率彎折新算法55-58
- 4.3.3 頻率彎折后說話人自適應(yīng)參數(shù)估計58
- 4.4 實驗論證與結(jié)果分析58-66
- 4.4.1 實驗設(shè)置58-59
- 4.4.2 彎折函數(shù)評估59-61
- 4.4.3 基于最大似然線性回歸方法進行進一步自適應(yīng)的評估61-65
- 4.4.4 實驗結(jié)果討論65-66
- 4.5 小結(jié)66-67
- 第5章 基于神經(jīng)網(wǎng)絡(luò)的跨方言說話人轉(zhuǎn)換67-89
- 5.1 引言67-69
- 5.2 經(jīng)典的說話人轉(zhuǎn)換技術(shù)介紹及分析69-73
- 5.2.1 經(jīng)典說話人轉(zhuǎn)換技術(shù)的介紹69-72
- 5.2.2 經(jīng)典說話人轉(zhuǎn)換技術(shù)的分析72-73
- 5.3 基于神經(jīng)網(wǎng)絡(luò)的跨方言說話人轉(zhuǎn)換73-82
- 5.3.1 跨方言說話人轉(zhuǎn)換方法74-77
- 5.3.2 預(yù)訓練在說話人轉(zhuǎn)換訓練過程中的應(yīng)用77-79
- 5.3.3 基于語音序列感知的神經(jīng)網(wǎng)絡(luò)建模79-82
- 5.4 實驗論證與結(jié)果分析82-87
- 5.4.1 實驗設(shè)置82-83
- 5.4.2 客觀評測與結(jié)果83-86
- 5.4.3 主觀評測與結(jié)果86-87
- 5.5 小結(jié)87-89
- 第6章 總結(jié)與展望89-92
- 6.1 總結(jié)89-90
- 6.2 展望90-92
- 參考文獻92-100
- 附錄 攻讀博士學位期間的研究成果目錄100-102
- 致謝102
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 高福友;陳雁翔;;一種基于說話者的無監(jiān)督語音分割算法[J];合肥工業(yè)大學學報(自然科學版);2010年05期
2 張江安,楊洪柏,林良明,顏國正;一種基于段間距離測度的語音自動分割方法[J];上海交通大學學報;2001年09期
3 張俊星;劉宇;;基于二級搜索模型的有聲出版物語音分割算法[J];吉林大學學報(工學版);2009年S2期
4 孫艷萍;戴麗玲;;通用型電梯自動語音報站系統(tǒng)的設(shè)計[J];制造業(yè)自動化;2012年03期
5 徐露;徐明星;楊大利;;面向情感變化檢測的漢語情感語音數(shù)據(jù)庫[J];清華大學學報(自然科學版);2009年S1期
6 江亮亮;李雪敏;楊付正;楊旭;;引入內(nèi)容特性分析的包層語音質(zhì)量評價模型[J];四川大學學報(工程科學版);2013年03期
7 張劍;潘曉衡;鄧見光;;語音文摘研究綜述[J];東莞理工學院學報;2013年03期
8 孔祥通;王春平;孫書鷹;李軍;;單炮火控機語音報讀器的設(shè)計與實現(xiàn)[J];測控技術(shù);2013年03期
9 唐宏文;;基于AT89C51的語音錄放系統(tǒng)[J];硅谷;2011年09期
10 曹亮;張?zhí)祢U;周圣;胡然;;一種基于奇異譜的語音激活檢測方法[J];應(yīng)用聲學;2013年02期
中國重要會議論文全文數(shù)據(jù)庫 前9條
1 田野;王作英;陸大金;;基于韻律結(jié)構(gòu)信息的非語音拒識[A];第六屆全國人機語音通訊學術(shù)會議論文集[C];2001年
2 徐明;胡瑞敏;黃云森;;基于音素識別的語音評價方法[A];第二屆和諧人機環(huán)境聯(lián)合學術(shù)會議(HHME2006)——第15屆中國多媒體學術(shù)會議(NCMT'06)論文集[C];2006年
3 王歡良;韓紀慶;李海峰;王承發(fā);;面向嵌入式應(yīng)用的小詞匯量語音串識別系統(tǒng)[A];第七屆全國人機語音通訊學術(shù)會議(NCMMSC7)論文集[C];2003年
4 那斯爾江·吐爾遜;吾守爾·斯拉木;麥麥提艾力;;維吾爾語大詞匯量連續(xù)語音識別研究——語音語料庫的建立[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學術(shù)研討會論文集[C];2007年
5 簡志華;王向文;;考慮幀間信息的語音轉(zhuǎn)換算法[A];浙江省信號處理學會2012學術(shù)年會論文集[C];2012年
6 魏維;馬海燕;;一種丟失語音信包重建的新算法[A];通信理論與信號處理新進展——2005年通信理論與信號處理年會論文集[C];2005年
7 陳凡;羅四維;;一個實用語音開發(fā)應(yīng)用系統(tǒng)的設(shè)計與實現(xiàn)[A];第二屆全國人機語音通訊學術(shù)會議論文集[C];1992年
8 劉紅星;戴蓓劏;陸偉;;基于圖像增強方法的共振峰諧波能量參數(shù)的語音和端點檢測[A];第九屆全國人機語音通訊學術(shù)會議論文集[C];2007年
9 林愛華;張文俊;王毅敏;;基于肌肉模型的語音驅(qū)動唇形動畫[A];第十三屆全國圖象圖形學學術(shù)會議論文集[C];2006年
中國重要報紙全文數(shù)據(jù)庫 前5條
1 atvoc;數(shù)碼語音電路產(chǎn)品概述[N];電子資訊時報;2008年
2 記者 李山;德用雙音素改進人工語音表達[N];科技日報;2012年
3 中國科學院自動化研究所模式識別國家重點實驗室 于劍邋陶建華;個性化語音生成技術(shù)面面觀[N];計算機世界;2007年
4 江西 林慧勇;語音合成芯片MSM6295及其應(yīng)用[N];電子報;2006年
5 ;與“小超人”對話[N];中國計算機報;2001年
中國博士學位論文全文數(shù)據(jù)庫 前10條
1 高偉勛;智能家居環(huán)境中個性化語音生成關(guān)鍵技術(shù)研究[D];東華大學;2015年
2 陶冶;文本語音匹配的研究和應(yīng)用[D];山東大學;2009年
3 何俊;聲紋身份識別中非常態(tài)語音應(yīng)對方法研究[D];華南理工大學;2012年
4 李冬冬;基于拓展和聚類的情感魯棒說話人識別研究[D];浙江大學;2008年
5 雙志偉;個性化語音生成研究[D];中國科學技術(shù)大學;2011年
6 古今;語音感知認證的關(guān)鍵技術(shù)研究[D];中國科學技術(shù)大學;2009年
7 彭波;Internet上語音的魯棒性傳輸研究[D];華南理工大學;2001年
8 黃湘松;基于混淆網(wǎng)絡(luò)的漢語語音檢索技術(shù)研究[D];哈爾濱工程大學;2010年
9 應(yīng)娜;基于正弦語音模型的低比特率寬帶語音編碼算法的研究[D];吉林大學;2006年
10 田立斌;語音通信質(zhì)量客觀評價、有效接收及錯誤恢復(fù)算法研究[D];華南理工大學;2004年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 張占松;基于DSP的語音干擾方法研究與實現(xiàn)[D];北京交通大學;2016年
2 李鵬;基于系統(tǒng)融合的語音查詢項檢索技術(shù)研究[D];解放軍信息工程大學;2015年
3 周慧;基于PAD三維情緒模型的情感語音轉(zhuǎn)換與識別[D];西北師范大學;2009年
4 李塵一;基于聯(lián)合得分的語音置信度評估系統(tǒng)的研究與設(shè)計[D];內(nèi)蒙古大學;2006年
5 朱君波;PCA在語音檢測中的應(yīng)用研究[D];浙江工業(yè)大學;2004年
6 陳宇超;廣播語音的分割與分類研究[D];北京郵電大學;2009年
7 何明哲;語音片段檢索算法的研究與應(yīng)用[D];華南理工大學;2012年
8 邸燕君;基于感知哈希的語音內(nèi)容認證方法研究[D];蘭州理工大學;2013年
9 楊帥;聾兒語音恢復(fù)系統(tǒng)的語音識別研究[D];山東大學;2009年
10 林劍峰;自主心智發(fā)育機器人的語音感知映射[D];復(fù)旦大學;2008年
本文關(guān)鍵詞:智能家居環(huán)境中個性化語音生成關(guān)鍵技術(shù)研究,由筆耕文化傳播整理發(fā)布。
本文編號:323968
本文鏈接:http://www.sikaile.net/shoufeilunwen/xxkjbs/323968.html