基于本體的數(shù)學表達式檢索技術研究
發(fā)布時間:2017-09-14 12:38
本文關鍵詞:基于本體的數(shù)學表達式檢索技術研究
更多相關文章: 本體 數(shù)學表達式檢索 搜索引擎 語義檢索
【摘要】:在科研、教育和工程等眾多領域中,數(shù)學表達式作為一類復雜的、語義強的重要信息。人們對它的檢索有著表達式二維結構識別和表達式內(nèi)容語義識別的要求。然而現(xiàn)有的數(shù)學表達式檢索系統(tǒng)大多是基于表達式字符文本化和基于表達式內(nèi)容展示形式進行處理的,,很難滿足對表達式內(nèi)容語義的識別。因此,實現(xiàn)數(shù)學表達式的語義檢索對學習和工作都有著現(xiàn)實的意義。 本論文以支持數(shù)學表達式內(nèi)容語義和關聯(lián)關系的表達式本體庫為基礎,對查詢條件進行語義擴展,以期達到數(shù)學表達式的語義檢索的目標。論文主要開展以下工作: 1)論文分析了數(shù)學表達式的檢索過程,提出了一種基于本體的數(shù)學表達式語義檢索模型。其思想是以表達式中數(shù)學公式部分作為基點歸納出四類數(shù)學表達式多元信息的關聯(lián)關系,再使用改進后的通配符表示方法來構建數(shù)學表達式本體庫;跇嫿ǔ龅谋倔w庫對查詢條件進行語義拓展處理,將語義拓展處理后的關鍵詞匯返回給用戶進行關鍵詞精確操作或是直接傳遞給檢索框架,實現(xiàn)數(shù)學表達式的語義檢索。 2)本文提出了一種改進后的數(shù)學公式DOM樹的相似度匹配算法來實現(xiàn)上述模型中的語義擴展功能。該算法的基本思想是根據(jù)編輯操作對象節(jié)點類型的異同和其父節(jié)點的異同賦予不同的操作代價,枚舉疊加出操作代價總值,得出相應的相似度,實現(xiàn)用戶查詢條件的語義化和精準化拓展。同時借助數(shù)學表達式本體庫中歸納的關聯(lián)關系和上下位層次關系,減少匹配次數(shù),提高匹配的效率。 3)在上述研究工作的基礎上,論文使用Protege4.3工具構建出一個初級的數(shù)學表達式本體庫,再以Lucene檢索框架為基礎引擎進行實驗,驗證了基于本體的數(shù)學表達式語義檢索模型和方法的可行性和有效性。并對改進后的DOM樹相似度算法進行對比實驗,實驗結果表明,改進后的算法在響應時間、查全率、查準率和F-Measure值四項檢驗指標上均有提高。
【關鍵詞】:本體 數(shù)學表達式檢索 搜索引擎 語義檢索
【學位授予單位】:重慶大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TP391.1
【目錄】:
- 摘要3-4
- ABSTRACT4-8
- 1 緒論8-13
- 1.1 研究背景及意義8-9
- 1.2 研究現(xiàn)狀9-11
- 1.2.1 數(shù)學表達式搜素引擎9-10
- 1.2.2 數(shù)學表達式描述語言10
- 1.2.3 本體10-11
- 1.3 論文章節(jié)安排11-13
- 2 數(shù)學表達式檢索關鍵技術研究13-28
- 2.1 數(shù)學表達式的檢索技術13-17
- 2.1.1 信息檢索技術13-15
- 2.1.2 數(shù)學表達式檢索問題15-16
- 2.1.3 現(xiàn)有搜索引擎對比16-17
- 2.2 數(shù)學表達式的描述語言17-23
- 2.2.1 基于 XML 的數(shù)學標記方法概述17-20
- 2.2.2 MathML 文檔的表達結構20-22
- 2.2.3 MathML 的描述方法22-23
- 2.3 數(shù)學表達式中本體的應用23-27
- 2.3.1 本體及本體庫的理論23-24
- 2.3.2 本體在數(shù)學表達式的應用形式24-25
- 2.3.3 本體在數(shù)學表達式檢索中的作用25-27
- 2.4 本章小結27-28
- 3 一種基于本體的數(shù)學表達式語義檢索模型28-32
- 3.1 基于本體的數(shù)學表達式語義檢索模型28-29
- 3.2 模型的構成要素29-30
- 3.2.1 模型的物理構成要素29
- 3.2.2 模型的邏輯功能要素29-30
- 3.3 模型的檢索機理30-31
- 3.4 本章小結31-32
- 4 一種基于本體的數(shù)學表達式語義檢索技術32-51
- 4.1 基于本體的數(shù)學表達式表示方法32-41
- 4.1.1 數(shù)學表達式對象分析32-33
- 4.1.2 數(shù)學表達式間關系的呈現(xiàn)33-34
- 4.1.3 基于本體的數(shù)學表達式通配符表示34-36
- 4.1.4 數(shù)學表達式本體模型的構建和表達36-41
- 4.2 數(shù)學公式的 MathML 解析41-44
- 4.2.1 建立 DOM 樹42
- 4.2.2 去除括號42-43
- 4.2.3 標準化轉換43-44
- 4.2.4 節(jié)點排序44
- 4.3 數(shù)學表達式匹配方法44-50
- 4.3.1 傳統(tǒng)的數(shù)學表達式匹配方法44-45
- 4.3.2 一種基于本體語義的 DOM 樹匹配方法45-50
- 4.4 本章小結50-51
- 5 實驗與測評51-56
- 5.1 實驗環(huán)境51
- 5.2 實驗結果與分析51-55
- 5.2.1 基于本體的 DOM 樹相似度匹配算法結果分析52-54
- 5.2.2 基于本體的數(shù)學表達式語義檢索結果分析54-55
- 5.3 本章小結55-56
- 6 總結與展望56-58
- 6.1 本文總結56-57
- 6.2 研究展望57-58
- 致謝58-59
- 參考文獻59-62
- 附錄62
- A 作者在攻讀碩士學位期間發(fā)表論文的情況62
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前7條
1 鄧志鴻,唐世渭,張銘,楊冬青,陳捷;Ontology研究綜述[J];北京大學學報(自然科學版);2002年05期
2 張成昱 ,竇天芳 ,吳濱 ,高競妹;數(shù)學公式的采集、組織和檢索[J];大學圖書館學報;2005年05期
3 趙珂;逯鵬;李永強;;基于Lucene的搜索引擎設計與實現(xiàn)[J];計算機工程;2011年16期
4 吳剛,唐杰,李涓子,王克宏;細粒度語義網(wǎng)檢索[J];清華大學學報(自然科學版);2005年S1期
5 王洪偉;霍佳震;王偉;廖雅國;;面向語義檢索應用的本體模型結構設計[J];系統(tǒng)工程與電子技術;2010年01期
6 李春偉;;基于MathML的web數(shù)學公式的解決方案[J];中國科技信息;2008年17期
7 劉功申,李寧;一種基于有序二叉樹的多模式匹配算法(英文)[J];小型微型計算機系統(tǒng);2004年07期
本文編號:850079
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/850079.html
最近更新
教材專著