基于領(lǐng)域本體和位置關(guān)系的檢索模型研究
發(fā)布時(shí)間:2017-09-05 18:04
本文關(guān)鍵詞:基于領(lǐng)域本體和位置關(guān)系的檢索模型研究
更多相關(guān)文章: 信息檢索 領(lǐng)域本體 相似度 搜索引擎 向量空間模型
【摘要】:互聯(lián)網(wǎng)信息的飛快增長極大地改變了人們獲得信息的方式,面對(duì)大量的互聯(lián)網(wǎng)信息,如何才能夠迅速、方便地獲得有效信息,逐漸成為人們關(guān)注的問題。搜索引擎的出現(xiàn)極大地緩解了這一矛盾。搜索引擎是應(yīng)用在因特網(wǎng)上的一種軟件系統(tǒng),它以特定的策略在因特網(wǎng)上收集和挖掘信息,然后對(duì)信息進(jìn)行剖析、提取、組織等處理后形成供檢索用的檢索庫。檢索模型是搜索引擎的數(shù)學(xué)基礎(chǔ),它的工作是根據(jù)使用者的需求找出相關(guān)信息,在這之前需要將信息按照某種特定的方式進(jìn)行組織。 本體是對(duì)共享的概念模型的明確的形式化的規(guī)范的說明。它其實(shí)是一種特殊的術(shù)語集合,具備結(jié)構(gòu)化特征,且更為適用于在計(jì)算機(jī)系統(tǒng)中使用。領(lǐng)域本體對(duì)某個(gè)特定領(lǐng)域或客觀世界的一部分模型化。在各種信息檢索模型中,最常用的是向量空間模型。但是,向量空間模型具有固有的缺點(diǎn),所以有很多人根據(jù)需要對(duì)它進(jìn)行了改進(jìn)。改進(jìn)的檢索模型雖然取得了一定的效果,但效果仍不明顯。在計(jì)算查詢和文檔的相關(guān)度時(shí)雖然考慮了領(lǐng)域本體或者詞義網(wǎng)詞典,但是沒有將二者結(jié)合起來。此外,現(xiàn)有的檢索模型也沒有考慮查詢?cè)~項(xiàng)位置特征這一重要因素,查詢經(jīng)過這些檢索模型處理后得到的詞項(xiàng)便失去了順序先后關(guān)系和相鄰關(guān)系。 本文的工作和創(chuàng)新主要表現(xiàn)在以下幾個(gè)方面: (1)收集了軟件領(lǐng)域中的各種概念以及概念之間的關(guān)系,并用專業(yè)術(shù)語表達(dá)出來,作為軟件本體的基本概念集,并按照語義詞典的結(jié)構(gòu)來把它們組織成語義關(guān)系網(wǎng)絡(luò)。然后用Protégé手工構(gòu)造軟件領(lǐng)域本體,,作為求概念相似度的一個(gè)參考。 (2)通過將兩個(gè)概念在詞義網(wǎng)中關(guān)于根據(jù)信息理論得到的語義相似度融合到軟件領(lǐng)域本體得到的相似度中得到了一種新的相似度算法。 (3)將查詢?cè)~項(xiàng)的位置關(guān)系作為求相關(guān)度時(shí)考慮的一個(gè)因素,提出了詞序相關(guān)度和詞語相鄰相關(guān)度這兩個(gè)概念,并對(duì)其進(jìn)行形式化,然后對(duì)其進(jìn)行初步的實(shí)現(xiàn)。 (4)在本文構(gòu)造的軟件領(lǐng)域本體以及提出的概念的基礎(chǔ)上構(gòu)建了一個(gè)信息檢索系統(tǒng),然后對(duì)其進(jìn)行了實(shí)現(xiàn)。實(shí)驗(yàn)證明本文提出的檢索模型在查準(zhǔn)率上有了較大的提高,同時(shí)本文提出的領(lǐng)域本體概念相似度計(jì)算方法求得的相似度也較為接近經(jīng)驗(yàn)值。
【關(guān)鍵詞】:信息檢索 領(lǐng)域本體 相似度 搜索引擎 向量空間模型
【學(xué)位授予單位】:北京工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP391.1
【目錄】:
- 摘要4-6
- Abstract6-10
- 第1章 緒論10-16
- 1.1 研究背景與意義10-11
- 1.2 國內(nèi)外研究現(xiàn)狀11-13
- 1.2.1 國外研究現(xiàn)狀11-12
- 1.2.2 國內(nèi)研究現(xiàn)狀12-13
- 1.3 本文課題主要研究內(nèi)容13
- 1.4 本文結(jié)構(gòu)13-16
- 第2章 基本理論與技術(shù)簡述16-24
- 2.1 檢索模型16
- 2.2 領(lǐng)域本體的定義16-17
- 2.3 領(lǐng)域本體的描述語言17-20
- 2.3.1 RDF 和 RDFS18-19
- 2.3.2 DAML+OIL19
- 2.3.3 OWL19-20
- 2.4 概念相似度20-22
- 2.5 本章小結(jié)22-24
- 第3章 領(lǐng)域本體的構(gòu)造24-36
- 3.1 本體的構(gòu)造工具24-25
- 3.2 設(shè)計(jì)目標(biāo)25-27
- 3.3 數(shù)據(jù)收集27
- 3.4 數(shù)據(jù)分析27-30
- 3.5 本體構(gòu)造30-35
- 3.5.1 建立概念30-32
- 3.5.2 建立屬性32-34
- 3.5.3 添加實(shí)例34-35
- 3.6 本章小結(jié)35-36
- 第4章 關(guān)鍵技術(shù)36-42
- 4.1 概念語義相似度計(jì)算36-38
- 4.2 位置相似度38
- 4.3 位置關(guān)系的實(shí)現(xiàn)38-40
- 4.4 最終排序函數(shù)及算法40-41
- 4.5 本章小結(jié)41-42
- 第5章 系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)42-52
- 5.1 系統(tǒng)結(jié)構(gòu)42
- 5.2 基本檢索模塊42-49
- 5.2.1 相似度計(jì)算模塊43-45
- 5.2.2 文檔集處理模塊45-48
- 5.2.3 查詢處理模塊48
- 5.2.4 打分模塊48-49
- 5.3 擴(kuò)展檢索模塊49-51
- 5.3.1 查詢處理模塊50-51
- 5.3.2 文檔集處理模塊51
- 5.3.3 打分模塊51
- 5.4 本章小結(jié)51-52
- 第6章 實(shí)驗(yàn)驗(yàn)證52-58
- 6.1 實(shí)驗(yàn)數(shù)據(jù)及評(píng)價(jià)指標(biāo)52-53
- 6.2 實(shí)驗(yàn)結(jié)果分析53-56
- 6.3 本章小結(jié)56-58
- 結(jié)論58-60
- 參考文獻(xiàn)60-64
- 攻讀碩士學(xué)位期間所發(fā)表的學(xué)術(shù)論文64-66
- 致謝66
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前4條
1 廖樂健,曹元大,李新穎;基于Ontology的信息抽取[J];計(jì)算機(jī)工程與應(yīng)用;2002年23期
2 魏哲雄;馮志勇;;基于字典技術(shù)的本體整合系統(tǒng)[J];計(jì)算機(jī)應(yīng)用;2007年02期
3 韓美靈;楊勇;;一種面向語義檢索的向量空間模型改進(jìn)方法[J];農(nóng)業(yè)網(wǎng)絡(luò)信息;2012年10期
4 王夢(mèng)菊;DC元數(shù)據(jù)的應(yīng)用及思考[J];現(xiàn)代情報(bào);2005年08期
本文編號(hào):799459
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/799459.html
最近更新
教材專著