面向領域的Web信息自動化抽取系統(tǒng)設計與實現
發(fā)布時間:2021-06-20 18:54
隨著互聯網技術的迅速發(fā)展,社會各行各業(yè)都在通過網絡與外界交互信息,Web信息呈顯海量和多元化,并且仍在急劇增長。在越來越多的實際應用需要從Web中抽取有價值的信息加以利用。不同網站網頁異構化和網頁自身半結構化特征使得Web信息難以分析和直接利用,另一方面,人們除了關注大眾新聞外,更多的是對一些與自己相關的特定領域信息感興趣。面向領域的Web信息抽取技術在實際應用中變得越來越重要。論文分析了當前的Web信息抽取國內外研究現狀及發(fā)展趨勢,研究領域網站的特點并提出系統(tǒng)設計目標。本系統(tǒng)的特色是基于特定領域網站抽取用戶關注信息,能夠自動生成領域內不同網站的抽取規(guī)則,系統(tǒng)具有良好的抽取性能,并且容易擴展,可移植抽取不同領域網站。系統(tǒng)設計宗旨是努力提高系統(tǒng)的易用性,尋求在用戶參與負擔和系統(tǒng)抽取性能之間取得平衡。系統(tǒng)設計主要包括了數據采集模塊、網頁清洗模塊、抽取規(guī)則生成模塊、Web信息管理模塊等。其中抽取規(guī)則生成模塊為系統(tǒng)核心模塊,采用全自動化包裝器生成算法MDR算法和DSE算法分別用來抽取兩類數據密集型網頁:列表頁和詳情頁。為了提高抽取結果的準確率,系統(tǒng)基于DOM樹模型設計了兩種方法過濾噪音:一種方...
【文章來源】:鄭州大學河南省 211工程院校
【文章頁數】:78 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
目錄
1 緒論
1.1 研究背景和研究意義
1.2 信息抽取的歷史和現狀
1.3 Web信息抽取技術國內外研究現狀
1.4 論文的工作
1.5 論文的結構
2 相關技術概述
2.1 基于網頁重復模式抽取方法原理
2.2 基于DOM的Web抽取技術的比較
2.2.1 DSE算法
2.2.2 RoadRunner算法
2.2.3 MDR算法
2.3 文本分類的分析與研究
2.3.1 文本分類
2.3.2 文本的表示方法
2.3.3 特征的選擇
2.3.4 中文文本分類方法
2.4 本章小結
3 系統(tǒng)設計目標與總體設計
3.1 系統(tǒng)設計目標
3.2 系統(tǒng)總體框架
3.3 系統(tǒng)功能總體設計
3.4 本章小結
4 網頁采集與預處理模塊設計
4.1 網頁采集模塊的設計
4.1.1 爬蟲的工作原理
4.1.2 爬蟲程序設計
4.1.3 相對地址轉換
4.1.4 使用HttpClient訪問網絡
4.2 數據預處理模塊的分析與設計
4.2.1 網頁中的噪音
4.2.2 HTML錯誤檢查與修正
4.2.3 使用正則式確定網頁編碼方式
4.3 中文分詞模塊設計
4.4 本章小結
5 領域Web數據抽取分析與設計
5.1 領域網頁的特征分析
5.2 兩類網頁的抽取算法選擇
5.2.1 面臨的問題
5.2.2 抽取算法選擇
5.2.3 使用DOM技術處理XML文檔
5.3 列表頁數據抽取
5.3.1 樹的相似度算法
5.3.2 使用MDR算法抽取列表頁數據
5.4 噪音特征分析
5.4.1 列表頁數據區(qū)域特征
5.4.2 詳情頁文本特征
5.5 噪音過濾
5.5.1 噪音過濾設計方案
5.5.2 文本分類訓練模塊設計
5.5.3 使用kNN分類算法過濾噪音
5.6 詳情頁數據抽取
5.6.1 DOM樹的對齊
5.6.2 詳情頁噪音特征分析與過濾
5.7 抽取模板生成
5.7.1 語義標注
5.7.2 基于XPath技術的抽取規(guī)則表示
5.8 本章小結
6 系統(tǒng)的實現與評測
6.1 系統(tǒng)開發(fā)環(huán)境
6.2 系統(tǒng)架構與關鍵類實現
6.3 系統(tǒng)數據庫實現
6.4 用戶界面實現
6.5 系統(tǒng)的性能評測
6.6 本章小結
7 總結與展望
參考文獻
致謝
個人簡歷與研究成果
【參考文獻】:
期刊論文
[1]網頁去噪:研究綜述[J]. 毛先領,何靖,閆宏飛. 計算機研究與發(fā)展. 2010(12)
[2]Web信息抽取技術綜述[J]. 陳釗,張冬梅. 計算機應用研究. 2010(12)
[3]支持向量機與K近鄰結合的網頁分類方法[J]. 宗永升,張祎. 計算機仿真. 2010(09)
[4]基于Web的信息抽取技術研究綜述[J]. 蒲筱哥. 現代情報. 2007(10)
[5]Deep Web數據集成研究綜述[J]. 劉偉,孟小峰,孟衛(wèi)一. 計算機學報. 2007(09)
[6]中文文本分類中特征抽取方法的比較研究[J]. 代六玲,黃河燕,陳肇雄. 中文信息學報. 2004(01)
[7]基于DOM的Web信息提取[J]. 李效東,顧毓清. 計算機學報. 2002(05)
[8]基于支持向量機與無監(jiān)督聚類相結合的中文網頁分類器[J]. 李曉黎,劉繼敏,史忠植. 計算機學報. 2001(01)
碩士論文
[1]中文文本分類中分詞和特征選擇方法研究[D]. 李原.吉林大學 2011
[2]中文文本分類中特征選擇方法的研究與實現[D]. 裴英博.西北大學 2010
本文編號:3239742
【文章來源】:鄭州大學河南省 211工程院校
【文章頁數】:78 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
目錄
1 緒論
1.1 研究背景和研究意義
1.2 信息抽取的歷史和現狀
1.3 Web信息抽取技術國內外研究現狀
1.4 論文的工作
1.5 論文的結構
2 相關技術概述
2.1 基于網頁重復模式抽取方法原理
2.2 基于DOM的Web抽取技術的比較
2.2.1 DSE算法
2.2.2 RoadRunner算法
2.2.3 MDR算法
2.3 文本分類的分析與研究
2.3.1 文本分類
2.3.2 文本的表示方法
2.3.3 特征的選擇
2.3.4 中文文本分類方法
2.4 本章小結
3 系統(tǒng)設計目標與總體設計
3.1 系統(tǒng)設計目標
3.2 系統(tǒng)總體框架
3.3 系統(tǒng)功能總體設計
3.4 本章小結
4 網頁采集與預處理模塊設計
4.1 網頁采集模塊的設計
4.1.1 爬蟲的工作原理
4.1.2 爬蟲程序設計
4.1.3 相對地址轉換
4.1.4 使用HttpClient訪問網絡
4.2 數據預處理模塊的分析與設計
4.2.1 網頁中的噪音
4.2.2 HTML錯誤檢查與修正
4.2.3 使用正則式確定網頁編碼方式
4.3 中文分詞模塊設計
4.4 本章小結
5 領域Web數據抽取分析與設計
5.1 領域網頁的特征分析
5.2 兩類網頁的抽取算法選擇
5.2.1 面臨的問題
5.2.2 抽取算法選擇
5.2.3 使用DOM技術處理XML文檔
5.3 列表頁數據抽取
5.3.1 樹的相似度算法
5.3.2 使用MDR算法抽取列表頁數據
5.4 噪音特征分析
5.4.1 列表頁數據區(qū)域特征
5.4.2 詳情頁文本特征
5.5 噪音過濾
5.5.1 噪音過濾設計方案
5.5.2 文本分類訓練模塊設計
5.5.3 使用kNN分類算法過濾噪音
5.6 詳情頁數據抽取
5.6.1 DOM樹的對齊
5.6.2 詳情頁噪音特征分析與過濾
5.7 抽取模板生成
5.7.1 語義標注
5.7.2 基于XPath技術的抽取規(guī)則表示
5.8 本章小結
6 系統(tǒng)的實現與評測
6.1 系統(tǒng)開發(fā)環(huán)境
6.2 系統(tǒng)架構與關鍵類實現
6.3 系統(tǒng)數據庫實現
6.4 用戶界面實現
6.5 系統(tǒng)的性能評測
6.6 本章小結
7 總結與展望
參考文獻
致謝
個人簡歷與研究成果
【參考文獻】:
期刊論文
[1]網頁去噪:研究綜述[J]. 毛先領,何靖,閆宏飛. 計算機研究與發(fā)展. 2010(12)
[2]Web信息抽取技術綜述[J]. 陳釗,張冬梅. 計算機應用研究. 2010(12)
[3]支持向量機與K近鄰結合的網頁分類方法[J]. 宗永升,張祎. 計算機仿真. 2010(09)
[4]基于Web的信息抽取技術研究綜述[J]. 蒲筱哥. 現代情報. 2007(10)
[5]Deep Web數據集成研究綜述[J]. 劉偉,孟小峰,孟衛(wèi)一. 計算機學報. 2007(09)
[6]中文文本分類中特征抽取方法的比較研究[J]. 代六玲,黃河燕,陳肇雄. 中文信息學報. 2004(01)
[7]基于DOM的Web信息提取[J]. 李效東,顧毓清. 計算機學報. 2002(05)
[8]基于支持向量機與無監(jiān)督聚類相結合的中文網頁分類器[J]. 李曉黎,劉繼敏,史忠植. 計算機學報. 2001(01)
碩士論文
[1]中文文本分類中分詞和特征選擇方法研究[D]. 李原.吉林大學 2011
[2]中文文本分類中特征選擇方法的研究與實現[D]. 裴英博.西北大學 2010
本文編號:3239742
本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/3239742.html
最近更新
教材專著