天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

語義網(wǎng)圖中文本相似度方法的應(yīng)用研究

發(fā)布時間:2017-05-22 08:55

  本文關(guān)鍵詞:語義網(wǎng)圖中文本相似度方法的應(yīng)用研究,,由筆耕文化傳播整理發(fā)布。


【摘要】:隨著大數(shù)據(jù)時代的到來和教育水平的不斷提高,重復(fù)文檔的數(shù)量也正與日俱增,文檔和論文相似度查重也越發(fā)迫在眉睫。文檔的相似度計量主要是通過進(jìn)行轉(zhuǎn)換,將其轉(zhuǎn)化成距離、角度或彎曲度等來度量,從而實(shí)現(xiàn)較好的計量效果。余弦相似度,一種計量文檔相似度的常用方法,能較好的反應(yīng)文檔的相似程度。但其本身對數(shù)量和比重不敏感,這給相似度度量帶來了不少麻煩。據(jù)2008年不完全統(tǒng)計,在Intern et上有大約40%的網(wǎng)絡(luò)資源跟其他的網(wǎng)絡(luò)資源是重復(fù)的。重復(fù)資源或者近似重復(fù)的資源增加了搜索引擎的索引數(shù)量,并且對檢索結(jié)果也產(chǎn)生了不小的影響。近似重復(fù)檢測問題在信息檢索領(lǐng)域已經(jīng)是家喻戶曉了。在這里希望改進(jìn)相似度判別算法以及改進(jìn)爬蟲來實(shí)現(xiàn)避免對重復(fù)資源的爬取。網(wǎng)絡(luò)資源和網(wǎng)絡(luò)圖表在一定程度上比純文本信息要復(fù)雜的多,在一個文本文件中,語句順序可以被轉(zhuǎn)換成含義,而網(wǎng)絡(luò)資源不可以被轉(zhuǎn)換成含義,最終,相似語義網(wǎng)絡(luò)資源將擁有復(fù)雜的不同語句順序。同樣的,在基于文本的近似重復(fù)檢測中,內(nèi)容的含義查重并不是太大的問題,但是語義網(wǎng)絡(luò)文檔,這個問題很突出,假設(shè)有兩個不同的語義網(wǎng)絡(luò)文檔,如果計算它們的演繹閉包很可能是一樣的。在語義網(wǎng)絡(luò)圖片中,除了語句順序之外,同時需要驗(yàn)證空節(jié)點(diǎn)?展(jié)點(diǎn)是不具有URI的匿名資源,并且沒有文字含義。1998年提出萬維網(wǎng)的互聯(lián)網(wǎng)專家蒂姆·伯納斯-李提出了語義網(wǎng)絡(luò)的概念,它現(xiàn)在已經(jīng)發(fā)展成為自然語言理解和認(rèn)知科學(xué)領(lǐng)域研究的一個概念,用它來表達(dá)那些復(fù)雜概念及其它們之間的關(guān)系。語義網(wǎng)的表示形式是一個有向圖,其中點(diǎn)代表概念,邊代表這些概念之間的語義關(guān)系,這樣來形成一個由節(jié)點(diǎn)和弧組成的語義網(wǎng)絡(luò)描述圖。蒂姆·伯納斯-李提出了另一個關(guān)于語義網(wǎng)的概念,那就是我們現(xiàn)在家喻戶曉的萬維網(wǎng)(World Wide Web),語義網(wǎng)絡(luò)只是其相關(guān)的基礎(chǔ)理論。語義網(wǎng)相比于傳統(tǒng)的互聯(lián)網(wǎng)具有較好的語義判別和交互性。兩個語義網(wǎng)絡(luò)文檔或者網(wǎng)絡(luò)語圖是相似的,描述它們的不同之處在檢索、更新、版本控制等方面有很大的作用。在本文中,描述了一些列的文本相似度度量方法,用來表達(dá)它們之間的關(guān)系,并且計量它們的不同。本研究通過對語義網(wǎng)圖進(jìn)行標(biāo)準(zhǔn)化處理、簡化處理、相似度度量以及分類等相關(guān)的操作來進(jìn)行語義網(wǎng)圖相似度的判別。同時,為了區(qū)分兩個語義網(wǎng)圖之間的相似度,定義了一個變量來表示它們之間的版本關(guān)系。這個變量通過對其元組進(jìn)行添加和刪除來保持兩者的平衡,并且此變量是通過判斷RDF圖表序列化,而不僅僅根據(jù)文檔的URI來判定兩者之間的相似度。最后,通過實(shí)驗(yàn)驗(yàn)證了提出了語義網(wǎng)相似度度量具有較好的實(shí)驗(yàn)效果。但是由于時間比較倉促所以難免存在其他的一些問題,像穩(wěn)定性等有待我們后期繼續(xù)完善。
【關(guān)鍵詞】:相似度 余弦相似度 語義網(wǎng)絡(luò) 語義網(wǎng)圖 RDF
【學(xué)位授予單位】:山東大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP391.1
【目錄】:
  • 摘要8-10
  • Abstract10-12
  • 第一章 緒論12-18
  • 1.1 研究背景12-14
  • 1.2 國內(nèi)外研究現(xiàn)狀14-15
  • 1.3 本文的主要工作內(nèi)容15-17
  • 1.4 論文的組織結(jié)構(gòu)17-18
  • 第二章 文本相似度及本體論18-28
  • 2.1 文本相似度算法18-23
  • 2.2 本體論和概念相似度23-25
  • 2.3 本體版本25
  • 2.4 語義網(wǎng)絡(luò)文檔的變化計算25-28
  • 第三章 語義網(wǎng)絡(luò)圖相似度和變量增量28-39
  • 3.1 問題的提出及處理28-35
  • 3.1.1 標(biāo)準(zhǔn)表示29-32
  • 3.1.2 簡化形式32-34
  • 3.1.3 相似度度量34
  • 3.1.4 分類34-35
  • 3.2 計算兩個版本之間的向量δ35-39
  • 3.2.1 原始變量δ35-36
  • 3.2.2 演繹閉包的向量δ36
  • 3.2.3 本體論的類類別變量δ36-38
  • 3.2.4 檢測類重命名的啟發(fā)式方法38-39
  • 第四章 實(shí)驗(yàn)及結(jié)果39-45
  • 4.1 實(shí)驗(yàn)39
  • 4.2 成對探測相似度39-44
  • 4.2.1 檢測文字內(nèi)容的區(qū)別40-41
  • 4.2.2 檢測基本URI的區(qū)別41-43
  • 4.2.3 檢測版本關(guān)系43-44
  • 4.3 變量δ的正確性44-45
  • 第五章 總結(jié)與展望45-47
  • 5.1 總結(jié)45
  • 5.2 展望45-47
  • 5.2.1 穩(wěn)定性45
  • 5.2.2 變量δ準(zhǔn)確性45-46
  • 5.2.3 預(yù)測兩個版本之間的變化方向46-47
  • 參考文獻(xiàn)47-51
  • 致謝51-52
  • 攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文列表52-53
  • 附件53

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 孫運(yùn)傳,別榮芳;語義網(wǎng)絡(luò)求精方法研究[J];北京師范大學(xué)學(xué)報(自然科學(xué)版);2005年01期

2 李潔;丁穎;;語義網(wǎng)、語義網(wǎng)格和語義網(wǎng)絡(luò)[J];計算機(jī)與現(xiàn)代化;2007年07期

3 熊驍;;語義網(wǎng)的初步探討[J];硅谷;2009年24期

4 安波;;語義網(wǎng)的研究與應(yīng)用[J];電腦編程技巧與維護(hù);2010年14期

5 張昕 ,孫建新;科學(xué)研究與語義網(wǎng)[J];國外科技動態(tài);2003年03期

6 王亞章;語義網(wǎng),下一代互聯(lián)網(wǎng)的神經(jīng)[J];中國計算機(jī)用戶;2003年07期

7 韋華;;語義網(wǎng)絡(luò)助推互聯(lián)網(wǎng)[J];微電腦世界;2006年08期

8 陳衛(wèi)紅;朱佳鳴;;語義網(wǎng)的研究及其在生物醫(yī)學(xué)中的應(yīng)用[J];醫(yī)學(xué)信息;2007年07期

9 張東偉;趙津津;李鵬;;基于語義網(wǎng)的知識管理研究[J];計算機(jī)與信息技術(shù);2008年03期

10 趙宏偉;張海龍;臧雪柏;;表象式語義網(wǎng)絡(luò)研究[J];北京工業(yè)大學(xué)學(xué)報;2009年08期

中國重要會議論文全文數(shù)據(jù)庫 前2條

1 唐璐;張永光;付雪;;語義網(wǎng)絡(luò)的結(jié)構(gòu):我們怎樣學(xué)習(xí)語義知識(英文)[A];全國語域web與本體能研討會論文集[C];2006年

2 張旭潔;夏幼明;劉冠曉;宋亞林;;基于規(guī)則方法的漢語到語義網(wǎng)絡(luò)語言的轉(zhuǎn)換研究[A];第三屆學(xué)生計算語言學(xué)研討會論文集[C];2006年

中國重要報紙全文數(shù)據(jù)庫 前2條

1 北京 高守;互聯(lián)網(wǎng)之父鐘情語義網(wǎng)[N];電腦報;2002年

2 華新;你要的是哪個蘋果?語義智能搜索時代來臨[N];經(jīng)理日報;2007年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前2條

1 代印唐;基于語義網(wǎng)絡(luò)的知識協(xié)作關(guān)鍵技術(shù)研究[D];復(fù)旦大學(xué);2009年

2 史斌;面向語義網(wǎng)的語義搜索引擎關(guān)鍵技術(shù)研究[D];北京工業(yè)大學(xué);2010年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 金愛明;語義網(wǎng)絡(luò)對初中英語詞匯教學(xué)的影響研究[D];沈陽師范大學(xué);2014年

2 李明;語義網(wǎng)圖中文本相似度方法的應(yīng)用研究[D];山東大學(xué);2015年

3 熊逵;基于SPAROL的語義網(wǎng)數(shù)據(jù)查詢系統(tǒng)的設(shè)計與實(shí)現(xiàn)[D];浙江大學(xué);2015年

4 任彬;一種特定領(lǐng)域的語義網(wǎng)模型[D];吉林大學(xué);2004年

5 康樹鵬;面向語義網(wǎng)的自然語言查詢接口研究[D];哈爾濱工業(yè)大學(xué);2014年

6 張敏;基于語義網(wǎng)的學(xué)術(shù)論文檢索的研究與實(shí)現(xiàn)[D];沈陽工業(yè)大學(xué);2011年

7 杜鵑;面向長春市地理信息系統(tǒng)的語義網(wǎng)模型研究[D];吉林大學(xué);2005年

8 馬曉峰;基于語義網(wǎng)絡(luò)的病理診斷案例表示及不確定性研究[D];合肥工業(yè)大學(xué);2006年

9 張海龍;表象式語義網(wǎng)絡(luò)研究[D];吉林大學(xué);2007年

10 張紅;語義網(wǎng)中的本體推理及其應(yīng)用研究[D];吉林大學(xué);2004年


  本文關(guān)鍵詞:語義網(wǎng)圖中文本相似度方法的應(yīng)用研究,由筆耕文化傳播整理發(fā)布。



本文編號:385181

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/385181.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶a2627***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com