Web中LaTex數(shù)學公式提取方法研究
發(fā)布時間:2017-04-25 14:13
本文關鍵詞:Web中LaTex數(shù)學公式提取方法研究,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著互聯(lián)網技術的不斷發(fā)展,網絡信息急速增長,大量的信息涌現(xiàn)在互聯(lián)網上。搜索引擎為廣大人們提供了信息檢索和共享的一個平臺,而傳統(tǒng)的搜索引擎在一些方面已經滿足不了人們增長的需求。在數(shù)學領域,Web中的數(shù)學論壇、Wiki等社會性的網站在數(shù)學教育方面影響力日益增長,而這些網站中存在大量的數(shù)學公式,而全文搜索引擎已經不能滿足人們對數(shù)學公式搜索能力的要求。因此,如何對這些網站中數(shù)學公式進行搜索,對數(shù)學方面的學習、科學研究十分重要,其中,數(shù)學公式提取是索引系統(tǒng)的前提和基礎,是搜索引擎中的重要環(huán)節(jié)。 在此類網站中,數(shù)學公式主要以LaTex、圖片等形式存在,本文主要研究LaTex格式的數(shù)學公式的提取方法,一方面,本文結合BNF表述方式,提出自動分析提取包含LaTex公式特征的方法,來找出網頁中包含LaTex公式的特征;另一方面,依據(jù)公式包含特征,提出提取和過濾LaTex數(shù)學公式的方法,過濾掉提取內容中存在的非LaTex數(shù)學公式,增加提取公式的精度,通過實驗發(fā)現(xiàn),該方法的查全率達到75%,查準率達到99%。
【關鍵詞】:數(shù)學公式 LaTex 查準率 查全率 BNF 搜索引擎
【學位授予單位】:蘭州大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TP391.3
【目錄】:
- 中文摘要3-4
- Abstract4-5
- 目錄5-7
- 第一章 引言7-13
- 1.1 背景7-8
- 1.2 研究現(xiàn)狀及分析8-12
- 1.2.1 現(xiàn)有數(shù)學搜索的研究現(xiàn)狀8-11
- 1.2.2 小結11-12
- 1.3 論文結構12-13
- 第二章 相關研究基礎13-21
- 2.1 Wiki概述13-14
- 2.2 MathSearch概述14-15
- 2.3 Nutch簡介15-17
- 2.3.1 Nutch特點15
- 2.3.2 Nutch系統(tǒng)結構15-17
- 2.4 DOM簡介17
- 2.5 正則表達式17-18
- 2.6 LaTex簡介18-20
- 2.6.1 LaTex概述18-19
- 2.6.2 LaTex數(shù)學公式19-20
- 2.7 小結20-21
- 第三章 LaTex數(shù)學公式識別與提取21-37
- 3.1 LaTex數(shù)學公式識別與提取過程22-23
- 3.2 自動分析提取包含LaTex數(shù)學公式特征23-31
- 3.2.1 Web中在線處理LaTex數(shù)學公式方式23-25
- 3.2.2 自動分析提取包含LaTex數(shù)學公式過程25-31
- 3.3 提取和過濾LaTex數(shù)學公式31-36
- 3.3.1 提取和過濾LaTex數(shù)學公式過程31-32
- 3.3.2 采用提取特征提取LaTex數(shù)學公式32
- 3.3.3 采用LaTex數(shù)學符號提取LaTex數(shù)學公式32
- 3.3.4 采用過濾規(guī)則過濾提取內容32-36
- 3.4 小結36-37
- 第四章 實驗及數(shù)據(jù)分析37-41
- 4.1 實驗平臺37
- 4.1.1 平臺開發(fā)介紹37
- 4.1.2 評價方法及數(shù)據(jù)選取37
- 4.2 實驗結果及分析37-40
- 4.3 小結40-41
- 第五章 總結與展望41-43
- 5.1 總結41-42
- 5.2 展望42-43
- 參考文獻43-45
- 附錄45-57
- 附錄一 LaTex數(shù)學符號分類表45-48
- 附錄二 LaTex數(shù)學符號影響因子統(tǒng)計表48-57
- 在學期間的研究成果57-58
- 致謝58
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前5條
1 趙飛;周濤;張良;馬鳴卉;劉金虎;余飛;查一龍;李睿琪;;維基百科研究綜述[J];電子科技大學學報;2010年03期
2 葉春曉;鐘將;馮永;;基于屬性的訪問控制策略描述語言(英文)[J];Journal of Southeast University(English Edition);2008年03期
3 崔林衛(wèi);蘇偉;郭衛(wèi);李廉;;基于Nutch的Web數(shù)學公式提取[J];廣西師范大學學報(自然科學版);2011年01期
4 聶俊;陳天瑩;符紅光;;基于Latex的互聯(lián)網數(shù)學公式搜索引擎[J];計算機應用;2010年S2期
5 鄭冬冬,趙朋朋,崔志明;Deep Web爬蟲研究與設計[J];清華大學學報(自然科學版);2005年S1期
本文關鍵詞:Web中LaTex數(shù)學公式提取方法研究,由筆耕文化傳播整理發(fā)布。
,本文編號:326464
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/326464.html
教材專著