天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 信息工程論文 >

說(shuō)話人分割聚類中的建模方法研究

發(fā)布時(shí)間:2017-08-02 13:12

  本文關(guān)鍵詞:說(shuō)話人分割聚類中的建模方法研究


  更多相關(guān)文章: 說(shuō)話人分割聚類 深度神經(jīng)網(wǎng)絡(luò) 全差異空間建模 說(shuō)話人類內(nèi)短時(shí)語(yǔ)音段差異建模 譜聚類


【摘要】:隨著互聯(lián)網(wǎng)時(shí)代的到來(lái),以及大數(shù)據(jù)的發(fā)展,每天接受的信息大幅增長(zhǎng),這些信息中包含著電話通信、電視和網(wǎng)絡(luò)等語(yǔ)音信息,同時(shí)隨著科技的不斷發(fā)展和電子設(shè)備的大量普及,有聲郵件、語(yǔ)音搜索等在日常生活中扮演著越來(lái)越重要的角色。面對(duì)這些如雨后春筍般出現(xiàn)的信息,如何從中有效提取有用的信息,是目前研究的難點(diǎn)和熱點(diǎn)。說(shuō)話人分割聚類融合了多種音頻處理技術(shù),并能夠?qū)崿F(xiàn)對(duì)說(shuō)話人類別和說(shuō)話內(nèi)容的精確管理,因此說(shuō)話人分割聚類技術(shù)引起了眾多學(xué)者的興趣,比如麻省理工、法國(guó)LIMSI、劍橋、伯克利等已經(jīng)展開(kāi)研究,且取得了一定成果,但是說(shuō)話人分割聚類中仍有幾大難點(diǎn)難以解決,比如復(fù)雜場(chǎng)景下建模不準(zhǔn)確、短時(shí)語(yǔ)音段表示不準(zhǔn)確、聚類效率慢以及說(shuō)話人數(shù)目確定困難等,本文針對(duì)這些問(wèn)題展開(kāi)研究,具體內(nèi)容為以下幾個(gè)方面:針對(duì)復(fù)雜場(chǎng)景下建模不準(zhǔn)確的問(wèn)題,論文將有監(jiān)督的建模方法應(yīng)用到說(shuō)話人分割聚類中,利用深度神經(jīng)網(wǎng)絡(luò)替代傳統(tǒng)建模方法提取語(yǔ)音信號(hào)中深層次的復(fù)雜信息,將輸出節(jié)點(diǎn)中的音素狀態(tài)作為建模初始類別數(shù),并和全差異建模相結(jié)合,從而使音素特征和說(shuō)話人特征有效地解耦,最終得到對(duì)語(yǔ)音段更加魯棒性的表示,從而提高系統(tǒng)性能。對(duì)于短時(shí)語(yǔ)音段表示不準(zhǔn)確的問(wèn)題,論文提出了構(gòu)造基于深度神經(jīng)網(wǎng)絡(luò)的說(shuō)話人類內(nèi)短時(shí)語(yǔ)音段差異建模的方法,通過(guò)對(duì)存在差異的短時(shí)語(yǔ)音段進(jìn)行有效建模,補(bǔ)償語(yǔ)音段之間的差異,減少干擾信息的負(fù)面影響,從而使得低維因子向量準(zhǔn)確的包含語(yǔ)音段中的說(shuō)話人信息,從而使得短時(shí)語(yǔ)音段能夠更加準(zhǔn)確地被表示。為了能夠?qū)崿F(xiàn)高效建模的目標(biāo),提高聚類效率,論文用譜聚類的方法代替原有的層次凝聚聚類,通過(guò)計(jì)算語(yǔ)音段間的距離,構(gòu)造基于距離的關(guān)聯(lián)矩陣,利用改進(jìn)的Eigen gap方法尋找最優(yōu)的聚類數(shù)目,確定語(yǔ)音段中的說(shuō)話人數(shù)目,根據(jù)已經(jīng)確定的類別數(shù),通過(guò)對(duì)關(guān)聯(lián)矩陣特征結(jié)構(gòu)分布的分析,對(duì)分割后的語(yǔ)音段進(jìn)行聚類。譜聚類的方法不僅解決了說(shuō)話人數(shù)目難以確定的問(wèn)題,而且聚類速度高于傳統(tǒng)的層次凝聚聚類方法。利用本文提出的三種方法,能夠有效解決目前說(shuō)話人分割聚類中存在的難點(diǎn),通過(guò)實(shí)驗(yàn)結(jié)果可以表明,系統(tǒng)性能有大幅提升。
【關(guān)鍵詞】:說(shuō)話人分割聚類 深度神經(jīng)網(wǎng)絡(luò) 全差異空間建模 說(shuō)話人類內(nèi)短時(shí)語(yǔ)音段差異建模 譜聚類
【學(xué)位授予單位】:中國(guó)科學(xué)技術(shù)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TN912.3
【目錄】:
  • 摘要5-6
  • ABSTRACT6-13
  • 第一章 緒論13-21
  • 1.1 說(shuō)話人分割聚類簡(jiǎn)介13-16
  • 1.1.1 說(shuō)話人分割聚類研究背景13-14
  • 1.1.2 國(guó)內(nèi)外研究現(xiàn)狀14-16
  • 1.2 NIST SRE數(shù)據(jù)庫(kù)16-17
  • 1.3 評(píng)價(jià)指標(biāo)17-18
  • 1.4 論文結(jié)構(gòu)18-21
  • 第二章 基于全差異空間的說(shuō)話人分割聚類系統(tǒng)21-37
  • 2.1 系統(tǒng)簡(jiǎn)介21
  • 2.2 說(shuō)話人分割與聚類21-26
  • 2.2.1 貝葉斯信息準(zhǔn)則22-23
  • 2.2.2 說(shuō)話人分割23-24
  • 2.2.3 說(shuō)話人聚類24-25
  • 2.2.4 重分割25-26
  • 2.3 模型訓(xùn)練26-30
  • 2.3.1 高斯混合模型26-28
  • 2.3.2 說(shuō)話人自適應(yīng)28-30
  • 2.4 全差異空間30-33
  • 2.5 iVector在說(shuō)話人分割聚類中的應(yīng)用33-34
  • 2.6 實(shí)驗(yàn)34-35
  • 2.7 本章小結(jié)35-37
  • 第三章 基于DNN的全差異空間建模37-51
  • 3.1 引言37
  • 3.2 DNN-HMM聲學(xué)建模37-44
  • 3.2.1 受限玻爾茲曼機(jī)和深層置信網(wǎng)絡(luò)訓(xùn)練算法38-41
  • 3.2.2 DNN訓(xùn)練算法41-43
  • 3.2.3 深度神經(jīng)網(wǎng)絡(luò)在聲學(xué)模型中的應(yīng)用43-44
  • 3.3 全差異空間建模44-47
  • 3.3.1 基于UBM的全差異空間建模44
  • 3.3.2 基于DNN的全差異空間建模44-47
  • 3.4 實(shí)驗(yàn)47-48
  • 3.5 本章總結(jié)48-51
  • 第四章 基于DNN的說(shuō)話人類內(nèi)短時(shí)語(yǔ)音段差異建模51-59
  • 4.1 引言51
  • 4.2 全差異空間建模存在的問(wèn)題分析51-52
  • 4.3 說(shuō)話人類內(nèi)短時(shí)語(yǔ)音段差異補(bǔ)償和建模52-57
  • 4.3.1 U矩陣估計(jì)53-54
  • 4.3.2 說(shuō)話人模型訓(xùn)練54-55
  • 4.3.3 說(shuō)話人模型補(bǔ)償55-56
  • 4.3.4 說(shuō)話人身份識(shí)別測(cè)試56-57
  • 4.4 實(shí)驗(yàn)57-58
  • 4.5 本章小結(jié)58-59
  • 第五章 譜聚類59-73
  • 5.1 引言59
  • 5.2 傳統(tǒng)譜聚類簡(jiǎn)介59-65
  • 5.2.1 NJW算法流程60
  • 5.2.2 相似圖介紹60-62
  • 5.2.3 拉普拉斯圖及其性質(zhì)62-65
  • 5.3 譜聚類在說(shuō)話人分割聚類中的應(yīng)用65-69
  • 5.3.1 已知說(shuō)話人數(shù)目65-68
  • 5.3.2 未知說(shuō)話人數(shù)目68-69
  • 5.4 實(shí)驗(yàn)69-71
  • 5.5 本章小結(jié)71-73
  • 第六章 總結(jié)與展望73-77
  • 6.1 論文工作總結(jié)73-75
  • 6.2 后續(xù)工作計(jì)劃75-77
  • 參考文獻(xiàn)77-81
  • 致謝81-83
  • 在讀期間發(fā)表的學(xué)術(shù)論文與取得的研究成果83

【相似文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 丁輝;唐振民;錢博;李燕萍;;易擴(kuò)展小樣本環(huán)境說(shuō)話人辨認(rèn)系統(tǒng)的研究[J];系統(tǒng)仿真學(xué)報(bào);2008年10期

2 劉明輝;黃中偉;熊繼平;;用于說(shuō)話人辨識(shí)的評(píng)分規(guī)整[J];計(jì)算機(jī)工程與應(yīng)用;2010年12期

3 陳雪芳;楊繼臣;;一種三層判決的說(shuō)話人索引算法[J];計(jì)算機(jī)工程;2012年02期

4 楊繼臣;何俊;李艷雄;;一種基于性別的說(shuō)話人索引算法[J];計(jì)算機(jī)工程與科學(xué);2012年06期

5 何致遠(yuǎn),胡起秀,徐光yP;兩級(jí)決策的開(kāi)集說(shuō)話人辨認(rèn)方法[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2003年04期

6 殷啟新,韓春光,楊鑒;基于掌上電腦錄音的說(shuō)話人辨認(rèn)[J];云南民族學(xué)院學(xué)報(bào)(自然科學(xué)版);2003年04期

7 呂聲,尹俊勛;同語(yǔ)種說(shuō)話人轉(zhuǎn)換的實(shí)現(xiàn)[J];移動(dòng)通信;2004年S3期

8 董明,劉加,劉潤(rùn)生;快速口音自適應(yīng)的動(dòng)態(tài)說(shuō)話人選擇性訓(xùn)練[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年07期

9 曹敏;王浩川;;說(shuō)話人自動(dòng)識(shí)別技術(shù)研究[J];中州大學(xué)學(xué)報(bào);2007年02期

10 王堅(jiān);;基于支撐向量選擇的說(shuō)話人自適應(yīng)[J];中國(guó)新通信;2007年11期

中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條

1 司羅;胡起秀;金琴;;完全無(wú)監(jiān)督的雙人對(duì)話中的說(shuō)話人分隔[A];第九屆全國(guó)信號(hào)處理學(xué)術(shù)年會(huì)(CCSP-99)論文集[C];1999年

2 金乃高;侯剛;王學(xué)輝;李非墨;;基于主動(dòng)感知的音視頻聯(lián)合說(shuō)話人跟蹤方法[A];2010年通信理論與信號(hào)處理學(xué)術(shù)年會(huì)論文集[C];2010年

3 馬勇;鮑長(zhǎng)春;夏丙寅;;基于辨別性深度信念網(wǎng)絡(luò)的說(shuō)話人分割[A];第十二屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議(NCMMSC'2013)論文集[C];2013年

4 白俊梅;張樹(shù)武;徐波;;廣播電視中的目標(biāo)說(shuō)話人跟蹤技術(shù)[A];第八屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集[C];2005年

5 索宏彬;劉曉星;;基于高斯混合模型的說(shuō)話人跟蹤系統(tǒng)[A];第八屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集[C];2005年

6 羅海風(fēng);龍長(zhǎng)才;;多話者環(huán)境下說(shuō)話人辨識(shí)聽(tīng)覺(jué)線索研究[A];中國(guó)聲學(xué)學(xué)會(huì)2009年青年學(xué)術(shù)會(huì)議[CYCA’09]論文集[C];2009年

7 王剛;鄔曉鈞;鄭方;王琳琳;張陳昊;;基于參考說(shuō)話人模型和雙層結(jié)構(gòu)的說(shuō)話人辨認(rèn)快速算法[A];第十一屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集(一)[C];2011年

8 李經(jīng)偉;;語(yǔ)體轉(zhuǎn)換與角色定位[A];全國(guó)語(yǔ)言與符號(hào)學(xué)研究會(huì)第五屆研討會(huì)論文摘要集[C];2002年

9 王剛;鄔曉鈞;鄭方;王琳琳;張陳昊;;基于參考說(shuō)話人模型和雙層結(jié)構(gòu)的說(shuō)話人辨認(rèn)[A];第十一屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集(二)[C];2011年

10 何磊;方棣棠;吳文虎;;說(shuō)話人聚類與模型自適應(yīng)結(jié)合的說(shuō)話人自適應(yīng)方法[A];第六屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集[C];2001年

中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前3條

1 ;做一名積極的傾聽(tīng)者[N];中國(guó)紡織報(bào);2003年

2 唐志強(qiáng);不聽(tīng)別人說(shuō)話,也能模仿其口音[N];新華每日電訊;2010年

3 黃惠慧(南京師范大學(xué)附屬揚(yáng)子中學(xué));高考聽(tīng)力要求及對(duì)策[N];中國(guó)教育資訊報(bào);2002年

中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 李洪儒;語(yǔ)句中的說(shuō)話人形象[D];黑龍江大學(xué);2003年

2 李威;多人會(huì)話語(yǔ)音中的說(shuō)話人角色分析[D];華南理工大學(xué);2015年

3 楊繼臣;說(shuō)話人信息分析及其在多媒體檢索中的應(yīng)用研究[D];華南理工大學(xué);2010年

4 鄭建煒;基于核方法的說(shuō)話人辨認(rèn)模型研究[D];浙江工業(yè)大學(xué);2010年

5 呂聲;說(shuō)話人轉(zhuǎn)換方法的研究[D];華南理工大學(xué);2004年

6 陳凌輝;說(shuō)話人轉(zhuǎn)換建模方法研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2013年

7 玄成君;基于語(yǔ)音頻率特性抑制音素影響的說(shuō)話人特征提取[D];天津大學(xué);2014年

8 李燕萍;說(shuō)話人辨認(rèn)中的特征參數(shù)提取和魯棒性技術(shù)研究[D];南京理工大學(xué);2009年

9 徐利敏;說(shuō)話人辨認(rèn)中的特征變換和魯棒性技術(shù)研究[D];南京理工大學(xué);2008年

10 王堅(jiān);語(yǔ)音識(shí)別中的說(shuō)話人自適應(yīng)研究[D];北京郵電大學(xué);2007年

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 楊浩;基于廣義音素的文本無(wú)關(guān)說(shuō)話人認(rèn)證的研究[D];北京郵電大學(xué);2008年

2 解冬悅;互動(dòng)韻律:英語(yǔ)多人沖突性話語(yǔ)中說(shuō)話人的首音模式研究[D];大連外國(guó)語(yǔ)大學(xué);2015年

3 朱培;“什么X不X(的)”構(gòu)式研究[D];揚(yáng)州大學(xué);2015年

4 肖澤蘋;無(wú)線電對(duì)講語(yǔ)音的說(shuō)話人分割聚類研究[D];北京理工大學(xué);2016年

5 王紅恬;“寧可A,也不B”句式探析[D];陜西理工學(xué)院;2016年

6 李銳;基于因子分析的說(shuō)話人分離技術(shù)研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2016年

7 張亞明;說(shuō)話人性別識(shí)別和年齡估計(jì)的系統(tǒng)研制[D];華南理工大學(xué);2016年

8 馬悅;基于共振峰和信息成分的說(shuō)話人比對(duì)研究[D];廣東外語(yǔ)外貿(mào)大學(xué);2016年

9 陸亮;多信道條件下的說(shuō)話人認(rèn)證[D];北京郵電大學(xué);2010年

10 凌錦雯;基于多特征的說(shuō)話人分割與聚類的研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2011年

,

本文編號(hào):609452

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/xinxigongchenglunwen/609452.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶45f7b***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com