知識庫與語料庫相結(jié)合的語義相似度的研究與實(shí)現(xiàn)
本文關(guān)鍵詞:知識庫與語料庫相結(jié)合的語義相似度的研究與實(shí)現(xiàn),,由筆耕文化傳播整理發(fā)布。
【摘要】:語義相似度計(jì)算作為自然語言處理的基礎(chǔ)之一,在詞義消歧、機(jī)器翻譯、拼寫修正、文本分類和自動問答系統(tǒng)等領(lǐng)域有著廣泛的應(yīng)用。當(dāng)前語義相似度計(jì)算方法主要有兩個發(fā)展方向,其一是基于語料庫的空間向量模型的相似度計(jì)算方法;其二是基于知識庫結(jié)構(gòu)的語義相似度計(jì)算方法。詞向量由大規(guī)模語料經(jīng)過神經(jīng)網(wǎng)絡(luò)語言模型訓(xùn)練得到,由于缺少語義信息很難計(jì)算詞與詞之間的內(nèi)在關(guān)系;知識庫中包含了豐富的語義信息,能反映詞與詞之間的關(guān)系,但受制于語義詞典的容量難以準(zhǔn)確地計(jì)算文本之間的相似度。本文的創(chuàng)新點(diǎn)為在計(jì)算語義相似度時,結(jié)合了知識庫與語料庫的相似度計(jì)算方法,在詞語的相似度計(jì)算和短文本的相似度計(jì)算上取得了較好的成果。針對詞語相似度的計(jì)算,本文分析了基于知識庫和基于語料庫的相似度計(jì)算方法的優(yōu)劣之處并取長補(bǔ)短,提出了基于知識庫與語料庫相結(jié)合的語義相似度計(jì)算方法。首先,基于連續(xù)詞袋模型對語料庫進(jìn)行訓(xùn)練得到初始詞向量,利用WordNet對詞向量進(jìn)行語義信息加強(qiáng),然后,通過最大相似度計(jì)算模型計(jì)算得到詞與詞之間的相似度值,并在RG-65、MC-30和WS-353三個基準(zhǔn)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)驗(yàn)證。針對短文本相似度的計(jì)算,本文引入了相似度矩陣方法作為短文本相似度計(jì)算的主要方法,分別計(jì)算短文本的基于知識庫的相似度特征、基于語料庫的相似度特征、基于知識庫與語料庫相結(jié)合的相似度特征,在微軟研究院釋義數(shù)據(jù)集上的實(shí)驗(yàn)取得了較好的準(zhǔn)確率、召回率以及F1值。最后本文將語義相似度計(jì)算應(yīng)用到Web服務(wù)匹配領(lǐng)域,提出基于詞語相似度計(jì)算的輸入、輸出屬性相似度和基于短文本相似度計(jì)算的文本描述屬性相似度的Web服務(wù)綜合相似度計(jì)算方法,在OWLS-TC數(shù)據(jù)集上的Web服務(wù)匹配實(shí)驗(yàn)驗(yàn)證了該算法的可行性和有效性。
【關(guān)鍵詞】:語義相似度計(jì)算 WordNet 詞語相似度 短文本相似度 Web服務(wù)匹配
【學(xué)位授予單位】:北京交通大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP391.1
【目錄】:
- 致謝5-6
- 摘要6-7
- ABSTRACT7-9
- 序言9-13
- 1 緒論13-22
- 1.1 研究背景13-14
- 1.2 研究意義14-16
- 1.3 國內(nèi)外研究現(xiàn)狀16-20
- 1.3.1 基于知識庫的語義相似度計(jì)算方法16-17
- 1.3.2 基于語料庫的語義相似度計(jì)算方法17-19
- 1.3.3 語義相似度混合計(jì)算方法19-20
- 1.4 本文主要工作20-21
- 1.5 論文組織結(jié)構(gòu)21-22
- 2 基于知識庫與語料庫相結(jié)合的詞語相似度計(jì)算方法22-39
- 2.1 WordNet中的關(guān)系22-25
- 2.1.1 注釋語義屬性22-23
- 2.1.2 上下位關(guān)系23-24
- 2.1.3 同義關(guān)系24-25
- 2.2 連續(xù)詞袋模型25-26
- 2.3 詞語相似度計(jì)算方法26-30
- 2.3.1 多原型詞向量模型26-27
- 2.3.2 知識庫與語料庫融合實(shí)驗(yàn)設(shè)計(jì)27-29
- 2.3.3 單詞相似度計(jì)算29-30
- 2.4 實(shí)驗(yàn)與分析30-33
- 2.4.1 語料庫30-31
- 2.4.2 語料預(yù)處理模塊31-32
- 2.4.3 基準(zhǔn)數(shù)據(jù)集32-33
- 2.5 實(shí)驗(yàn)數(shù)據(jù)與分析33-37
- 2.6 本章小結(jié)37-39
- 3 基于知識庫與語料庫綜合特征的短文本分類方法39-51
- 3.1 基于相似度矩陣的短文本相似度計(jì)算方法39-40
- 3.2 實(shí)體間相似度計(jì)算方法40-43
- 3.2.1 基于WordNet路徑的相似度計(jì)算方法41-42
- 3.2.2 基于WordNet信息內(nèi)容的相似度計(jì)算方法42-43
- 3.3 微軟研究院釋義語料庫數(shù)據(jù)集43-44
- 3.4 短文本相似度特征值的計(jì)算44-45
- 3.5 文本分類方法45-47
- 3.5.1 樸素貝葉斯分類算法45-46
- 3.5.2 K近鄰分類算法46
- 3.5.3 支持向量機(jī)46-47
- 3.6 實(shí)驗(yàn)與分析47-50
- 3.6.1 實(shí)驗(yàn)環(huán)境47-48
- 3.6.2 文本分類評價指標(biāo)48
- 3.6.3 實(shí)驗(yàn)結(jié)果及分析48-50
- 3.7 本章小結(jié)50-51
- 4 基于語義相似度的Web服務(wù)匹配51-62
- 4.1 Web服務(wù)本體語言O(shè)WL-S52-54
- 4.2 基于語義相似度的Web服務(wù)發(fā)現(xiàn)框架54-58
- 4.2.1 Web服務(wù)相似度計(jì)算54-55
- 4.2.2 Web服務(wù)匹配框架55-58
- 4.3 Web服務(wù)測試數(shù)據(jù)集58-59
- 4.4 實(shí)驗(yàn)與分析59-61
- 4.4.1 實(shí)驗(yàn)環(huán)境60
- 4.4.2 語義Web服務(wù)匹配評價指標(biāo)60
- 4.4.3 實(shí)驗(yàn)結(jié)果與分析60-61
- 4.5 本章小結(jié)61-62
- 5 總結(jié)與展望62-64
- 5.1 總結(jié)62-63
- 5.2 展望63-64
- 參考文獻(xiàn)64-68
- 作者簡歷及攻讀碩士學(xué)位期間取得的研究成果68-70
- 學(xué)位論文數(shù)據(jù)集70
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 胡艷波;崔新春;路青;;2002~2011年國內(nèi)語義相似度研究計(jì)量分析[J];情報(bào)科學(xué);2013年07期
2 王家琴;李仁發(fā);李仲生;唐劍波;;一種基于本體的概念語義相似度方法的研究[J];計(jì)算機(jī)工程;2007年11期
3 劉俊;;基于語義相似度的關(guān)鍵詞生成在企業(yè)搜索引擎營銷中應(yīng)用[J];電腦知識與技術(shù);2008年14期
4 宗裕朋;吳剛;;一種基于上下文的語義相似度算法[J];微計(jì)算機(jī)信息;2008年30期
5 劉春辰;劉大有;王生生;趙靜濱;王兆丹;;改進(jìn)的語義相似度計(jì)算模型及應(yīng)用[J];吉林大學(xué)學(xué)報(bào)(工學(xué)版);2009年01期
6 徐猛;劉宗田;周文;;一種基于知網(wǎng)語義相似度計(jì)算的應(yīng)用研究[J];微計(jì)算機(jī)信息;2010年03期
7 孫海霞;錢慶;成穎;;基于本體的語義相似度計(jì)算方法研究綜述[J];現(xiàn)代圖書情報(bào)技術(shù);2010年01期
8 魏椺;向陽;陳千;;計(jì)算術(shù)語間語義相似度的混合方法[J];計(jì)算機(jī)應(yīng)用;2010年06期
9 馬續(xù)補(bǔ);郭菊娥;;基于《知網(wǎng)》語義相似度的企業(yè)事實(shí)主題診斷研究[J];情報(bào)雜志;2010年05期
10 魏凱斌;冉延平;余牛;;語義相似度的計(jì)算方法研究與分析[J];計(jì)算機(jī)技術(shù)與發(fā)展;2010年07期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 關(guān)毅;王曉龍;;基于統(tǒng)計(jì)的漢語詞匯間語義相似度計(jì)算[A];語言計(jì)算與基于內(nèi)容的文本處理——全國第七屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會議論文集[C];2003年
2 李月雷;師瑞峰;林麗冰;周一民;;漢語語句語義相似度的計(jì)算方法[A];2008'中國信息技術(shù)與應(yīng)用學(xué)術(shù)論壇論文集(一)[C];2008年
3 馮新元;魏建國;路文煥;黨建武;;引入領(lǐng)域知識的基于《知網(wǎng)》詞語語義相似度計(jì)算[A];第十二屆全國人機(jī)語音通訊學(xué)術(shù)會議(NCMMSC'2013)論文集[C];2013年
4 章成志;;詞語的語義相似度計(jì)算及其應(yīng)用研究[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2004年
5 劉寒磊;關(guān)毅;徐永東;;多文檔文摘中基于語義相似度的最大邊緣相關(guān)技術(shù)研究[A];全國第八屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會議(JSCL-2005)論文集[C];2005年
6 石靜;邱立坤;王菲;吳云芳;;相似詞獲取的集成方法[A];中國計(jì)算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
7 陳明;鹿e
本文編號:384016
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/384016.html