科技論文轉換為NLM XML格式的設計與實現
發(fā)布時間:2017-07-17 01:02
本文關鍵詞:科技論文轉換為NLM XML格式的設計與實現
更多相關文章: 科技論文 信息抽取 XML NLM DTD PubMed Central
【摘要】:隨著現代信息技術的迅速發(fā)展及廣泛應用,期刊出版工作發(fā)生了重大變化,由傳統(tǒng)紙質期刊占主導地位變?yōu)殡娮悠诳图堎|期刊優(yōu)勢互補、缺一不可。電子期刊有非結構化及結構化之分,非結構化電子期刊大多以PDF、HTML及Word等文檔格式進行存儲,而結構化電子期刊通常以XML文檔格式保存。結構化期刊在對文檔的語義信息及其內部結構的描述上明顯優(yōu)于非結構化期刊。為此,把非結構化文檔轉換成結構化文檔成為了一個迫切的問題。這正是本文基于XML的信息抽取技術的研究背景。本文最主要工作是構建一個基于NLM DTD的PDF信息抽取系統(tǒng)。NLM DTD是由美國國立醫(yī)學圖書館(NLM)下的國立生物技術信息中心(NCBI)開發(fā)的一套更具有普遍性及通用性的學術文獻XML描述規(guī)范。NLM DTD包含3個規(guī)范:文獻存檔標簽集(Archiving Tag Set)、Journal Publishing Tag Set(期刊出版標簽集)和NCBI Book Tag Set(圖書標簽集),其中期刊出版標簽集為全球科技期刊提供了一種通用的期刊數據交換的文檔格式,可以讓出版商和數據庫進行期刊內容的存儲和交換。目前該標準已成為美國的國家標準,且已成為科技期刊界的行業(yè)標準。本系統(tǒng)的特點在于選擇XML作為信息表現模型,以及正則表達式作為抽取規(guī)則。系統(tǒng)的核心是先將PDF源文檔轉換為一種中間XML文檔,再利用文本特征、位置特征及顯示特征對中間XML文檔進行基于正則表達式的信息抽取。本系統(tǒng)把科技論文的PDF文檔解析轉換為符合NLM DTD要求的XML文檔,從而實現科技論文格式標注向語義標注的轉換。
【關鍵詞】:科技論文 信息抽取 XML NLM DTD PubMed Central
【學位授予單位】:華南理工大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP311.52
【目錄】:
- 摘要5-6
- ABSTRACT6-10
- 第一章 緒論10-13
- 1.1 選題背景10
- 1.2 出版期刊的現狀分析10-12
- 1.3 系統(tǒng)實現方案選擇12
- 1.4 業(yè)務流程12
- 1.5 研究意義12
- 1.6 主要工作12-13
- 第二章 基礎理論及相關技術13-24
- 2.1 HTML簡介與特征13
- 2.1.1 HTML簡介13
- 2.1.2 HTML特點與好處13
- 2.2 XML定義與特征13-17
- 2.2.1 XML定義13
- 2.2.2 XML優(yōu)點13-14
- 2.2.3 XML應用場合14-16
- 2.2.4 XML的基本語法16-17
- 2.3 NLM DTD規(guī)范17-23
- 2.3.1 DTD定義與特征17-21
- 2.3.2 NLM DTD規(guī)范21-22
- 2.3.3 DTD的替代品XSD22-23
- 2.4 正則表達式23-24
- 第三章 Journal Publishing Tag Set的結構解析24-32
- 3.1 Journal Publishing Tag Set的主要定義24
- 3.2 Journal Publishing Tag Set的層次結構24-32
- 3.2.1 Front結構25-26
- 3.2.2 Body與Section結構26-27
- 3.2.3 Back結構27-29
- 3.2.4 Floats-group結構29
- 3.2.5 Sub-article與Response結構29-30
- 3.2.6 Block結構30-32
- 第四章 系統(tǒng)設計32-54
- 4.1 設計意義32-33
- 4.2 設計目標33
- 4.3 功能模組設計33-37
- 4.3.1 論文信息維護模塊33-35
- 4.3.2 信息分析抽取模塊35
- 4.3.3 NLM DTD模型模塊35-36
- 4.3.4 XML文檔驗證模塊36
- 4.3.5 模塊間運作流程及關系36-37
- 4.4 角色與用例分析37-49
- 4.4.1 角色與主用例37-42
- 4.4.2 編輯論文子用例分析42-49
- 4.5 類圖結構設計49-51
- 4.6 物理架構設計51-54
- 第五章 系統(tǒng)實現54-73
- 5.1 開發(fā)工具與版本控制工具54-55
- 5.1.1 開發(fā)工具54
- 5.1.2 版本控制工具54-55
- 5.2 Journal Publishing Tag Set數據結構模型類實現55-57
- 5.3 臨時數據模型類實現57-66
- 5.3.1 論文頭部信息臨時數據模型類57-61
- 5.3.2 論文主體信息臨時數據模型類61-62
- 5.3.3 論文結尾信息數據模型類62-65
- 5.3.4 論文其它數據模型類65-66
- 5.4 業(yè)務控制類實現66-70
- 5.5 邊界類的實現70-73
- 第六章 安裝部署說明與系統(tǒng)測試73-81
- 6.1 軟件的安裝與配置73-74
- 6.2 系統(tǒng)測試74-80
- 6.2.1 導出PDF圖片75
- 6.2.2 維護相關信息及HTML內容編輯75-78
- 6.2.3 線下驗證XML文件78-79
- 6.2.4 線上驗證XML文件79-80
- 6.3 系統(tǒng)性能測試80-81
- 第七章 總結與展望81-83
- 7.1 全文總結81
- 7.2 工作展望81-83
- 參考文獻83-85
- 攻讀碩士學位期間取得的研究成果85-86
- 致謝86-87
- 附件87
【參考文獻】
中國期刊全文數據庫 前1條
1 金麗萍;;電子期刊與紙質期刊的差異比較[J];理論觀察;2006年01期
,本文編號:551264
本文鏈接:http://www.sikaile.net/wenshubaike/hetongwenben/551264.html