Web信息抽取框架技術研究
發(fā)布時間:2017-09-21 00:00
本文關鍵詞:Web信息抽取框架技術研究
更多相關文章: 信息結構化 Web信息抽取框架 分類 知識圖譜 抽取規(guī)則
【摘要】:從非結構化和半結構化的互聯(lián)網(wǎng)信息中抽取結構化信息的技術廣泛應用于商業(yè)數(shù)據(jù)挖掘、社交網(wǎng)絡分析和垂直搜索引擎等領域。信息結構化包括一系列環(huán)節(jié):設定信息抽取范圍、網(wǎng)頁爬取、網(wǎng)頁預處理、定義抽取內容、構建抽取規(guī)則和信息存儲,進一步可以分為應用依賴的和應用獨立的環(huán)節(jié)。本文提出信息結構化的一般框架,基本思想是設定信息抽取的范圍和內容是框架中應用依賴的環(huán)節(jié),而其他環(huán)節(jié)具有應用獨立性,通過設計一套描述方法配置應用依賴的操作,將應用獨立的環(huán)節(jié)向開發(fā)人員屏蔽,提高框架的通用性和應用開發(fā)效率。具體貢獻如下:(1)設計并實現(xiàn)了一個通用的Web信息抽取框架。從信息結構化流程中抽象出該框架,框架提供了一個統(tǒng)一的Web信息抽取模型;基于抽象和信息隱蔽的工程原則對框架進行總體設計,將信息結構化過程抽象為應用依賴的信息范圍和內容描述與應用獨立的其他環(huán)節(jié),讓開發(fā)人員配置應用依賴的操作而屏蔽應用獨立的環(huán)節(jié),提高框架的通用性和應用開發(fā)效率。(2)提出并實現(xiàn)了一種基于知識圖譜的詞類生成算法。本文引入詞類的概念分析網(wǎng)頁主題,并使用文檔-詞類向量對網(wǎng)頁分類,而手工構建詞類比較困難。本文基于知識圖譜自動構建有效的詞類,降低了詞類構建的難度。(3)提出并實現(xiàn)了一種基于DOM節(jié)點分類的信息抽取方法。采用監(jiān)督學習的方法構建信息的抽取規(guī)則,將信息抽取問題看作分類問題,以信息所在的DOM節(jié)點為粒度進行分類,提出了DOM節(jié)點的樣式特征、內容特征和上下文特征。(4)在文獻[46]的數(shù)據(jù)集上進行了網(wǎng)頁分類實驗,與基準方法進行對比,實驗結果表明本文中提出的方法在分類效果上優(yōu)于基準方案。在從Amazon等網(wǎng)站抽取的圖書信息頁面數(shù)據(jù)集上進行了信息抽取實驗,其中對圖書的標題、作者和價格信息進行抽取,實驗結果表明本文提出的信息抽取方法能夠取得較好的效果,并且具有較好的擴展性。
【關鍵詞】:信息結構化 Web信息抽取框架 分類 知識圖譜 抽取規(guī)則
【學位授予單位】:東南大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP391.1
【目錄】:
- 摘要5-6
- ABSTRACT6-9
- 第一章 緒論9-13
- 1.1 研究背景和意義9-10
- 1.2 國內外研究現(xiàn)狀10-11
- 1.3 論文研究內容11-12
- 1.4 論文組織結構12-13
- 第二章 相關技術與理論13-23
- 2.1 WEB信息抽取概述13-15
- 2.1.1 Web信息抽取的定義和評價標準13
- 2.1.2 Web信息抽取技術分類13-15
- 2.2 布隆過濾器15-16
- 2.3 知識圖譜技術16-18
- 2.3.1 知識圖譜概述16-18
- 2.3.2 開源知識圖譜Freebase18
- 2.4 支持向量機18-20
- 2.5 邏輯回歸20-21
- 2.6 MONGODB數(shù)據(jù)庫21-22
- 2.7 本章小結22-23
- 第三章 WEB信息抽取框架設計23-33
- 3.1 WEB信息抽取框架總體設計23-24
- 3.2 信息范圍配置24-29
- 3.3 信息內容配置29-32
- 3.3.1 數(shù)據(jù)模式定義接口29-30
- 3.3.2 信息語義配置接口30-32
- 3.4 本章小結32-33
- 第四章 WEB信息抽取框架實現(xiàn)33-45
- 4.1 框架的系統(tǒng)結構與模塊劃分33
- 4.2 框架中的功能性模塊33-40
- 4.2.1 網(wǎng)頁檢索33-35
- 4.2.2 網(wǎng)頁分類35-39
- 4.2.3 信息抽取39-40
- 4.3 框架中的非功能性模塊40-44
- 4.3.1 網(wǎng)頁去重40-42
- 4.3.2 網(wǎng)頁預處理42-44
- 4.3.3 信息存儲44
- 4.4 本章小結44-45
- 第五章 框架中的關鍵技術45-53
- 5.1 詞類構建與文檔-詞類向量計算45-49
- 5.1.1 詞類定義的難點45
- 5.1.2 詞類生成算法45-48
- 5.1.3 文檔-詞類向量48-49
- 5.2 信息抽取規(guī)則構建49-52
- 5.2.1 Web信息抽取原理49-50
- 5.2.2 特征向量構建50-51
- 5.2.3 抽取規(guī)則生成51-52
- 5.3 本章小結52-53
- 第六章 應用場景與實驗分析53-61
- 6.1 典型應用場景53-57
- 6.1.1 商品信息抽取53-55
- 6.1.2 網(wǎng)站聯(lián)系信息抽取55-57
- 6.2 實驗環(huán)境57
- 6.3 網(wǎng)頁分類實驗57-59
- 6.3.1 實驗數(shù)據(jù)57
- 6.3.2 實驗結果與分析57-59
- 6.4 信息抽取實驗59-60
- 6.4.1 實驗數(shù)據(jù)59
- 6.4.2 實驗結果與分析59-60
- 6.5 本章小結60-61
- 第七章 總結與展望61-62
- 致謝62-63
- 參考文獻63-66
- 碩士期間發(fā)表的論文66
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前2條
1 顧韻華;田偉;;基于DOM模型擴展的Web信息提取[J];計算機科學;2009年11期
2 曹冬林;廖祥文;許洪波;白碩;;基于網(wǎng)頁格式信息量的博客文章和評論抽取模型[J];軟件學報;2009年05期
,本文編號:891150
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/891150.html
最近更新
教材專著