說(shuō)話人分割聚類中的建模方法研究
本文關(guān)鍵詞:說(shuō)話人分割聚類中的建模方法研究
更多相關(guān)文章: 說(shuō)話人分割聚類 深度神經(jīng)網(wǎng)絡(luò) 全差異空間建模 說(shuō)話人類內(nèi)短時(shí)語(yǔ)音段差異建模 譜聚類
【摘要】:隨著互聯(lián)網(wǎng)時(shí)代的到來(lái),以及大數(shù)據(jù)的發(fā)展,每天接受的信息大幅增長(zhǎng),這些信息中包含著電話通信、電視和網(wǎng)絡(luò)等語(yǔ)音信息,同時(shí)隨著科技的不斷發(fā)展和電子設(shè)備的大量普及,有聲郵件、語(yǔ)音搜索等在日常生活中扮演著越來(lái)越重要的角色。面對(duì)這些如雨后春筍般出現(xiàn)的信息,如何從中有效提取有用的信息,是目前研究的難點(diǎn)和熱點(diǎn)。說(shuō)話人分割聚類融合了多種音頻處理技術(shù),并能夠?qū)崿F(xiàn)對(duì)說(shuō)話人類別和說(shuō)話內(nèi)容的精確管理,因此說(shuō)話人分割聚類技術(shù)引起了眾多學(xué)者的興趣,比如麻省理工、法國(guó)LIMSI、劍橋、伯克利等已經(jīng)展開(kāi)研究,且取得了一定成果,但是說(shuō)話人分割聚類中仍有幾大難點(diǎn)難以解決,比如復(fù)雜場(chǎng)景下建模不準(zhǔn)確、短時(shí)語(yǔ)音段表示不準(zhǔn)確、聚類效率慢以及說(shuō)話人數(shù)目確定困難等,本文針對(duì)這些問(wèn)題展開(kāi)研究,具體內(nèi)容為以下幾個(gè)方面:針對(duì)復(fù)雜場(chǎng)景下建模不準(zhǔn)確的問(wèn)題,論文將有監(jiān)督的建模方法應(yīng)用到說(shuō)話人分割聚類中,利用深度神經(jīng)網(wǎng)絡(luò)替代傳統(tǒng)建模方法提取語(yǔ)音信號(hào)中深層次的復(fù)雜信息,將輸出節(jié)點(diǎn)中的音素狀態(tài)作為建模初始類別數(shù),并和全差異建模相結(jié)合,從而使音素特征和說(shuō)話人特征有效地解耦,最終得到對(duì)語(yǔ)音段更加魯棒性的表示,從而提高系統(tǒng)性能。對(duì)于短時(shí)語(yǔ)音段表示不準(zhǔn)確的問(wèn)題,論文提出了構(gòu)造基于深度神經(jīng)網(wǎng)絡(luò)的說(shuō)話人類內(nèi)短時(shí)語(yǔ)音段差異建模的方法,通過(guò)對(duì)存在差異的短時(shí)語(yǔ)音段進(jìn)行有效建模,補(bǔ)償語(yǔ)音段之間的差異,減少干擾信息的負(fù)面影響,從而使得低維因子向量準(zhǔn)確的包含語(yǔ)音段中的說(shuō)話人信息,從而使得短時(shí)語(yǔ)音段能夠更加準(zhǔn)確地被表示。為了能夠?qū)崿F(xiàn)高效建模的目標(biāo),提高聚類效率,論文用譜聚類的方法代替原有的層次凝聚聚類,通過(guò)計(jì)算語(yǔ)音段間的距離,構(gòu)造基于距離的關(guān)聯(lián)矩陣,利用改進(jìn)的Eigen gap方法尋找最優(yōu)的聚類數(shù)目,確定語(yǔ)音段中的說(shuō)話人數(shù)目,根據(jù)已經(jīng)確定的類別數(shù),通過(guò)對(duì)關(guān)聯(lián)矩陣特征結(jié)構(gòu)分布的分析,對(duì)分割后的語(yǔ)音段進(jìn)行聚類。譜聚類的方法不僅解決了說(shuō)話人數(shù)目難以確定的問(wèn)題,而且聚類速度高于傳統(tǒng)的層次凝聚聚類方法。利用本文提出的三種方法,能夠有效解決目前說(shuō)話人分割聚類中存在的難點(diǎn),通過(guò)實(shí)驗(yàn)結(jié)果可以表明,系統(tǒng)性能有大幅提升。
【關(guān)鍵詞】:說(shuō)話人分割聚類 深度神經(jīng)網(wǎng)絡(luò) 全差異空間建模 說(shuō)話人類內(nèi)短時(shí)語(yǔ)音段差異建模 譜聚類
【學(xué)位授予單位】:中國(guó)科學(xué)技術(shù)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TN912.3
【目錄】:
- 摘要5-6
- ABSTRACT6-13
- 第一章 緒論13-21
- 1.1 說(shuō)話人分割聚類簡(jiǎn)介13-16
- 1.1.1 說(shuō)話人分割聚類研究背景13-14
- 1.1.2 國(guó)內(nèi)外研究現(xiàn)狀14-16
- 1.2 NIST SRE數(shù)據(jù)庫(kù)16-17
- 1.3 評(píng)價(jià)指標(biāo)17-18
- 1.4 論文結(jié)構(gòu)18-21
- 第二章 基于全差異空間的說(shuō)話人分割聚類系統(tǒng)21-37
- 2.1 系統(tǒng)簡(jiǎn)介21
- 2.2 說(shuō)話人分割與聚類21-26
- 2.2.1 貝葉斯信息準(zhǔn)則22-23
- 2.2.2 說(shuō)話人分割23-24
- 2.2.3 說(shuō)話人聚類24-25
- 2.2.4 重分割25-26
- 2.3 模型訓(xùn)練26-30
- 2.3.1 高斯混合模型26-28
- 2.3.2 說(shuō)話人自適應(yīng)28-30
- 2.4 全差異空間30-33
- 2.5 iVector在說(shuō)話人分割聚類中的應(yīng)用33-34
- 2.6 實(shí)驗(yàn)34-35
- 2.7 本章小結(jié)35-37
- 第三章 基于DNN的全差異空間建模37-51
- 3.1 引言37
- 3.2 DNN-HMM聲學(xué)建模37-44
- 3.2.1 受限玻爾茲曼機(jī)和深層置信網(wǎng)絡(luò)訓(xùn)練算法38-41
- 3.2.2 DNN訓(xùn)練算法41-43
- 3.2.3 深度神經(jīng)網(wǎng)絡(luò)在聲學(xué)模型中的應(yīng)用43-44
- 3.3 全差異空間建模44-47
- 3.3.1 基于UBM的全差異空間建模44
- 3.3.2 基于DNN的全差異空間建模44-47
- 3.4 實(shí)驗(yàn)47-48
- 3.5 本章總結(jié)48-51
- 第四章 基于DNN的說(shuō)話人類內(nèi)短時(shí)語(yǔ)音段差異建模51-59
- 4.1 引言51
- 4.2 全差異空間建模存在的問(wèn)題分析51-52
- 4.3 說(shuō)話人類內(nèi)短時(shí)語(yǔ)音段差異補(bǔ)償和建模52-57
- 4.3.1 U矩陣估計(jì)53-54
- 4.3.2 說(shuō)話人模型訓(xùn)練54-55
- 4.3.3 說(shuō)話人模型補(bǔ)償55-56
- 4.3.4 說(shuō)話人身份識(shí)別測(cè)試56-57
- 4.4 實(shí)驗(yàn)57-58
- 4.5 本章小結(jié)58-59
- 第五章 譜聚類59-73
- 5.1 引言59
- 5.2 傳統(tǒng)譜聚類簡(jiǎn)介59-65
- 5.2.1 NJW算法流程60
- 5.2.2 相似圖介紹60-62
- 5.2.3 拉普拉斯圖及其性質(zhì)62-65
- 5.3 譜聚類在說(shuō)話人分割聚類中的應(yīng)用65-69
- 5.3.1 已知說(shuō)話人數(shù)目65-68
- 5.3.2 未知說(shuō)話人數(shù)目68-69
- 5.4 實(shí)驗(yàn)69-71
- 5.5 本章小結(jié)71-73
- 第六章 總結(jié)與展望73-77
- 6.1 論文工作總結(jié)73-75
- 6.2 后續(xù)工作計(jì)劃75-77
- 參考文獻(xiàn)77-81
- 致謝81-83
- 在讀期間發(fā)表的學(xué)術(shù)論文與取得的研究成果83
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 丁輝;唐振民;錢博;李燕萍;;易擴(kuò)展小樣本環(huán)境說(shuō)話人辨認(rèn)系統(tǒng)的研究[J];系統(tǒng)仿真學(xué)報(bào);2008年10期
2 劉明輝;黃中偉;熊繼平;;用于說(shuō)話人辨識(shí)的評(píng)分規(guī)整[J];計(jì)算機(jī)工程與應(yīng)用;2010年12期
3 陳雪芳;楊繼臣;;一種三層判決的說(shuō)話人索引算法[J];計(jì)算機(jī)工程;2012年02期
4 楊繼臣;何俊;李艷雄;;一種基于性別的說(shuō)話人索引算法[J];計(jì)算機(jī)工程與科學(xué);2012年06期
5 何致遠(yuǎn),胡起秀,徐光yP;兩級(jí)決策的開(kāi)集說(shuō)話人辨認(rèn)方法[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2003年04期
6 殷啟新,韓春光,楊鑒;基于掌上電腦錄音的說(shuō)話人辨認(rèn)[J];云南民族學(xué)院學(xué)報(bào)(自然科學(xué)版);2003年04期
7 呂聲,尹俊勛;同語(yǔ)種說(shuō)話人轉(zhuǎn)換的實(shí)現(xiàn)[J];移動(dòng)通信;2004年S3期
8 董明,劉加,劉潤(rùn)生;快速口音自適應(yīng)的動(dòng)態(tài)說(shuō)話人選擇性訓(xùn)練[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年07期
9 曹敏;王浩川;;說(shuō)話人自動(dòng)識(shí)別技術(shù)研究[J];中州大學(xué)學(xué)報(bào);2007年02期
10 王堅(jiān);;基于支撐向量選擇的說(shuō)話人自適應(yīng)[J];中國(guó)新通信;2007年11期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條
1 司羅;胡起秀;金琴;;完全無(wú)監(jiān)督的雙人對(duì)話中的說(shuō)話人分隔[A];第九屆全國(guó)信號(hào)處理學(xué)術(shù)年會(huì)(CCSP-99)論文集[C];1999年
2 金乃高;侯剛;王學(xué)輝;李非墨;;基于主動(dòng)感知的音視頻聯(lián)合說(shuō)話人跟蹤方法[A];2010年通信理論與信號(hào)處理學(xué)術(shù)年會(huì)論文集[C];2010年
3 馬勇;鮑長(zhǎng)春;夏丙寅;;基于辨別性深度信念網(wǎng)絡(luò)的說(shuō)話人分割[A];第十二屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議(NCMMSC'2013)論文集[C];2013年
4 白俊梅;張樹(shù)武;徐波;;廣播電視中的目標(biāo)說(shuō)話人跟蹤技術(shù)[A];第八屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集[C];2005年
5 索宏彬;劉曉星;;基于高斯混合模型的說(shuō)話人跟蹤系統(tǒng)[A];第八屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集[C];2005年
6 羅海風(fēng);龍長(zhǎng)才;;多話者環(huán)境下說(shuō)話人辨識(shí)聽(tīng)覺(jué)線索研究[A];中國(guó)聲學(xué)學(xué)會(huì)2009年青年學(xué)術(shù)會(huì)議[CYCA’09]論文集[C];2009年
7 王剛;鄔曉鈞;鄭方;王琳琳;張陳昊;;基于參考說(shuō)話人模型和雙層結(jié)構(gòu)的說(shuō)話人辨認(rèn)快速算法[A];第十一屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集(一)[C];2011年
8 李經(jīng)偉;;語(yǔ)體轉(zhuǎn)換與角色定位[A];全國(guó)語(yǔ)言與符號(hào)學(xué)研究會(huì)第五屆研討會(huì)論文摘要集[C];2002年
9 王剛;鄔曉鈞;鄭方;王琳琳;張陳昊;;基于參考說(shuō)話人模型和雙層結(jié)構(gòu)的說(shuō)話人辨認(rèn)[A];第十一屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集(二)[C];2011年
10 何磊;方棣棠;吳文虎;;說(shuō)話人聚類與模型自適應(yīng)結(jié)合的說(shuō)話人自適應(yīng)方法[A];第六屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集[C];2001年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前3條
1 ;做一名積極的傾聽(tīng)者[N];中國(guó)紡織報(bào);2003年
2 唐志強(qiáng);不聽(tīng)別人說(shuō)話,也能模仿其口音[N];新華每日電訊;2010年
3 黃惠慧(南京師范大學(xué)附屬揚(yáng)子中學(xué));高考聽(tīng)力要求及對(duì)策[N];中國(guó)教育資訊報(bào);2002年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 李洪儒;語(yǔ)句中的說(shuō)話人形象[D];黑龍江大學(xué);2003年
2 李威;多人會(huì)話語(yǔ)音中的說(shuō)話人角色分析[D];華南理工大學(xué);2015年
3 楊繼臣;說(shuō)話人信息分析及其在多媒體檢索中的應(yīng)用研究[D];華南理工大學(xué);2010年
4 鄭建煒;基于核方法的說(shuō)話人辨認(rèn)模型研究[D];浙江工業(yè)大學(xué);2010年
5 呂聲;說(shuō)話人轉(zhuǎn)換方法的研究[D];華南理工大學(xué);2004年
6 陳凌輝;說(shuō)話人轉(zhuǎn)換建模方法研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2013年
7 玄成君;基于語(yǔ)音頻率特性抑制音素影響的說(shuō)話人特征提取[D];天津大學(xué);2014年
8 李燕萍;說(shuō)話人辨認(rèn)中的特征參數(shù)提取和魯棒性技術(shù)研究[D];南京理工大學(xué);2009年
9 徐利敏;說(shuō)話人辨認(rèn)中的特征變換和魯棒性技術(shù)研究[D];南京理工大學(xué);2008年
10 王堅(jiān);語(yǔ)音識(shí)別中的說(shuō)話人自適應(yīng)研究[D];北京郵電大學(xué);2007年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 楊浩;基于廣義音素的文本無(wú)關(guān)說(shuō)話人認(rèn)證的研究[D];北京郵電大學(xué);2008年
2 解冬悅;互動(dòng)韻律:英語(yǔ)多人沖突性話語(yǔ)中說(shuō)話人的首音模式研究[D];大連外國(guó)語(yǔ)大學(xué);2015年
3 朱培;“什么X不X(的)”構(gòu)式研究[D];揚(yáng)州大學(xué);2015年
4 肖澤蘋;無(wú)線電對(duì)講語(yǔ)音的說(shuō)話人分割聚類研究[D];北京理工大學(xué);2016年
5 王紅恬;“寧可A,也不B”句式探析[D];陜西理工學(xué)院;2016年
6 李銳;基于因子分析的說(shuō)話人分離技術(shù)研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2016年
7 張亞明;說(shuō)話人性別識(shí)別和年齡估計(jì)的系統(tǒng)研制[D];華南理工大學(xué);2016年
8 馬悅;基于共振峰和信息成分的說(shuō)話人比對(duì)研究[D];廣東外語(yǔ)外貿(mào)大學(xué);2016年
9 陸亮;多信道條件下的說(shuō)話人認(rèn)證[D];北京郵電大學(xué);2010年
10 凌錦雯;基于多特征的說(shuō)話人分割與聚類的研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2011年
,本文編號(hào):609452
本文鏈接:http://www.sikaile.net/kejilunwen/xinxigongchenglunwen/609452.html