語義網(wǎng)圖中文本相似度方法的應(yīng)用研究
本文關(guān)鍵詞:語義網(wǎng)圖中文本相似度方法的應(yīng)用研究,,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著大數(shù)據(jù)時代的到來和教育水平的不斷提高,重復(fù)文檔的數(shù)量也正與日俱增,文檔和論文相似度查重也越發(fā)迫在眉睫。文檔的相似度計量主要是通過進(jìn)行轉(zhuǎn)換,將其轉(zhuǎn)化成距離、角度或彎曲度等來度量,從而實(shí)現(xiàn)較好的計量效果。余弦相似度,一種計量文檔相似度的常用方法,能較好的反應(yīng)文檔的相似程度。但其本身對數(shù)量和比重不敏感,這給相似度度量帶來了不少麻煩。據(jù)2008年不完全統(tǒng)計,在Intern et上有大約40%的網(wǎng)絡(luò)資源跟其他的網(wǎng)絡(luò)資源是重復(fù)的。重復(fù)資源或者近似重復(fù)的資源增加了搜索引擎的索引數(shù)量,并且對檢索結(jié)果也產(chǎn)生了不小的影響。近似重復(fù)檢測問題在信息檢索領(lǐng)域已經(jīng)是家喻戶曉了。在這里希望改進(jìn)相似度判別算法以及改進(jìn)爬蟲來實(shí)現(xiàn)避免對重復(fù)資源的爬取。網(wǎng)絡(luò)資源和網(wǎng)絡(luò)圖表在一定程度上比純文本信息要復(fù)雜的多,在一個文本文件中,語句順序可以被轉(zhuǎn)換成含義,而網(wǎng)絡(luò)資源不可以被轉(zhuǎn)換成含義,最終,相似語義網(wǎng)絡(luò)資源將擁有復(fù)雜的不同語句順序。同樣的,在基于文本的近似重復(fù)檢測中,內(nèi)容的含義查重并不是太大的問題,但是語義網(wǎng)絡(luò)文檔,這個問題很突出,假設(shè)有兩個不同的語義網(wǎng)絡(luò)文檔,如果計算它們的演繹閉包很可能是一樣的。在語義網(wǎng)絡(luò)圖片中,除了語句順序之外,同時需要驗(yàn)證空節(jié)點(diǎn)?展(jié)點(diǎn)是不具有URI的匿名資源,并且沒有文字含義。1998年提出萬維網(wǎng)的互聯(lián)網(wǎng)專家蒂姆·伯納斯-李提出了語義網(wǎng)絡(luò)的概念,它現(xiàn)在已經(jīng)發(fā)展成為自然語言理解和認(rèn)知科學(xué)領(lǐng)域研究的一個概念,用它來表達(dá)那些復(fù)雜概念及其它們之間的關(guān)系。語義網(wǎng)的表示形式是一個有向圖,其中點(diǎn)代表概念,邊代表這些概念之間的語義關(guān)系,這樣來形成一個由節(jié)點(diǎn)和弧組成的語義網(wǎng)絡(luò)描述圖。蒂姆·伯納斯-李提出了另一個關(guān)于語義網(wǎng)的概念,那就是我們現(xiàn)在家喻戶曉的萬維網(wǎng)(World Wide Web),語義網(wǎng)絡(luò)只是其相關(guān)的基礎(chǔ)理論。語義網(wǎng)相比于傳統(tǒng)的互聯(lián)網(wǎng)具有較好的語義判別和交互性。兩個語義網(wǎng)絡(luò)文檔或者網(wǎng)絡(luò)語圖是相似的,描述它們的不同之處在檢索、更新、版本控制等方面有很大的作用。在本文中,描述了一些列的文本相似度度量方法,用來表達(dá)它們之間的關(guān)系,并且計量它們的不同。本研究通過對語義網(wǎng)圖進(jìn)行標(biāo)準(zhǔn)化處理、簡化處理、相似度度量以及分類等相關(guān)的操作來進(jìn)行語義網(wǎng)圖相似度的判別。同時,為了區(qū)分兩個語義網(wǎng)圖之間的相似度,定義了一個變量來表示它們之間的版本關(guān)系。這個變量通過對其元組進(jìn)行添加和刪除來保持兩者的平衡,并且此變量是通過判斷RDF圖表序列化,而不僅僅根據(jù)文檔的URI來判定兩者之間的相似度。最后,通過實(shí)驗(yàn)驗(yàn)證了提出了語義網(wǎng)相似度度量具有較好的實(shí)驗(yàn)效果。但是由于時間比較倉促所以難免存在其他的一些問題,像穩(wěn)定性等有待我們后期繼續(xù)完善。
【關(guān)鍵詞】:相似度 余弦相似度 語義網(wǎng)絡(luò) 語義網(wǎng)圖 RDF
【學(xué)位授予單位】:山東大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP391.1
【目錄】:
- 摘要8-10
- Abstract10-12
- 第一章 緒論12-18
- 1.1 研究背景12-14
- 1.2 國內(nèi)外研究現(xiàn)狀14-15
- 1.3 本文的主要工作內(nèi)容15-17
- 1.4 論文的組織結(jié)構(gòu)17-18
- 第二章 文本相似度及本體論18-28
- 2.1 文本相似度算法18-23
- 2.2 本體論和概念相似度23-25
- 2.3 本體版本25
- 2.4 語義網(wǎng)絡(luò)文檔的變化計算25-28
- 第三章 語義網(wǎng)絡(luò)圖相似度和變量增量28-39
- 3.1 問題的提出及處理28-35
- 3.1.1 標(biāo)準(zhǔn)表示29-32
- 3.1.2 簡化形式32-34
- 3.1.3 相似度度量34
- 3.1.4 分類34-35
- 3.2 計算兩個版本之間的向量δ35-39
- 3.2.1 原始變量δ35-36
- 3.2.2 演繹閉包的向量δ36
- 3.2.3 本體論的類類別變量δ36-38
- 3.2.4 檢測類重命名的啟發(fā)式方法38-39
- 第四章 實(shí)驗(yàn)及結(jié)果39-45
- 4.1 實(shí)驗(yàn)39
- 4.2 成對探測相似度39-44
- 4.2.1 檢測文字內(nèi)容的區(qū)別40-41
- 4.2.2 檢測基本URI的區(qū)別41-43
- 4.2.3 檢測版本關(guān)系43-44
- 4.3 變量δ的正確性44-45
- 第五章 總結(jié)與展望45-47
- 5.1 總結(jié)45
- 5.2 展望45-47
- 5.2.1 穩(wěn)定性45
- 5.2.2 變量δ準(zhǔn)確性45-46
- 5.2.3 預(yù)測兩個版本之間的變化方向46-47
- 參考文獻(xiàn)47-51
- 致謝51-52
- 攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文列表52-53
- 附件53
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 孫運(yùn)傳,別榮芳;語義網(wǎng)絡(luò)求精方法研究[J];北京師范大學(xué)學(xué)報(自然科學(xué)版);2005年01期
2 李潔;丁穎;;語義網(wǎng)、語義網(wǎng)格和語義網(wǎng)絡(luò)[J];計算機(jī)與現(xiàn)代化;2007年07期
3 熊驍;;語義網(wǎng)的初步探討[J];硅谷;2009年24期
4 安波;;語義網(wǎng)的研究與應(yīng)用[J];電腦編程技巧與維護(hù);2010年14期
5 張昕 ,孫建新;科學(xué)研究與語義網(wǎng)[J];國外科技動態(tài);2003年03期
6 王亞章;語義網(wǎng),下一代互聯(lián)網(wǎng)的神經(jīng)[J];中國計算機(jī)用戶;2003年07期
7 韋華;;語義網(wǎng)絡(luò)助推互聯(lián)網(wǎng)[J];微電腦世界;2006年08期
8 陳衛(wèi)紅;朱佳鳴;;語義網(wǎng)的研究及其在生物醫(yī)學(xué)中的應(yīng)用[J];醫(yī)學(xué)信息;2007年07期
9 張東偉;趙津津;李鵬;;基于語義網(wǎng)的知識管理研究[J];計算機(jī)與信息技術(shù);2008年03期
10 趙宏偉;張海龍;臧雪柏;;表象式語義網(wǎng)絡(luò)研究[J];北京工業(yè)大學(xué)學(xué)報;2009年08期
中國重要會議論文全文數(shù)據(jù)庫 前2條
1 唐璐;張永光;付雪;;語義網(wǎng)絡(luò)的結(jié)構(gòu):我們怎樣學(xué)習(xí)語義知識(英文)[A];全國語域web與本體能研討會論文集[C];2006年
2 張旭潔;夏幼明;劉冠曉;宋亞林;;基于規(guī)則方法的漢語到語義網(wǎng)絡(luò)語言的轉(zhuǎn)換研究[A];第三屆學(xué)生計算語言學(xué)研討會論文集[C];2006年
中國重要報紙全文數(shù)據(jù)庫 前2條
1 北京 高守;互聯(lián)網(wǎng)之父鐘情語義網(wǎng)[N];電腦報;2002年
2 華新;你要的是哪個蘋果?語義智能搜索時代來臨[N];經(jīng)理日報;2007年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前2條
1 代印唐;基于語義網(wǎng)絡(luò)的知識協(xié)作關(guān)鍵技術(shù)研究[D];復(fù)旦大學(xué);2009年
2 史斌;面向語義網(wǎng)的語義搜索引擎關(guān)鍵技術(shù)研究[D];北京工業(yè)大學(xué);2010年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 金愛明;語義網(wǎng)絡(luò)對初中英語詞匯教學(xué)的影響研究[D];沈陽師范大學(xué);2014年
2 李明;語義網(wǎng)圖中文本相似度方法的應(yīng)用研究[D];山東大學(xué);2015年
3 熊逵;基于SPAROL的語義網(wǎng)數(shù)據(jù)查詢系統(tǒng)的設(shè)計與實(shí)現(xiàn)[D];浙江大學(xué);2015年
4 任彬;一種特定領(lǐng)域的語義網(wǎng)模型[D];吉林大學(xué);2004年
5 康樹鵬;面向語義網(wǎng)的自然語言查詢接口研究[D];哈爾濱工業(yè)大學(xué);2014年
6 張敏;基于語義網(wǎng)的學(xué)術(shù)論文檢索的研究與實(shí)現(xiàn)[D];沈陽工業(yè)大學(xué);2011年
7 杜鵑;面向長春市地理信息系統(tǒng)的語義網(wǎng)模型研究[D];吉林大學(xué);2005年
8 馬曉峰;基于語義網(wǎng)絡(luò)的病理診斷案例表示及不確定性研究[D];合肥工業(yè)大學(xué);2006年
9 張海龍;表象式語義網(wǎng)絡(luò)研究[D];吉林大學(xué);2007年
10 張紅;語義網(wǎng)中的本體推理及其應(yīng)用研究[D];吉林大學(xué);2004年
本文關(guān)鍵詞:語義網(wǎng)圖中文本相似度方法的應(yīng)用研究,由筆耕文化傳播整理發(fā)布。
本文編號:385181
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/385181.html