基于隱馬爾科夫模型在網頁信息抽取中的研究與應用
發(fā)布時間:2017-07-05 12:28
本文關鍵詞:基于隱馬爾科夫模型在網頁信息抽取中的研究與應用
更多相關文章: 隱馬爾可夫模型 最大熵原理 網頁信息抽取 網頁內容塊
【摘要】:互聯網技術的快速發(fā)展帶動了網上數據呈指數級增長,也標示著大數據時代的到來,同時人們也創(chuàng)造了大量的半結構化或非結構化數據,而信息抽取技術的意義就是從大量的數據中準確、快速地按需求獲取目標信息,并進一步提高信息的利用率。所以,需要一種自動化工具來幫助人們從海量數據中快速發(fā)現真正需要的信息,并將這些信息自動分類、提取、重組,使其有益于后續(xù)的檢查、比較及自動處理,由此需要相應成熟的信息抽取技術。但是在該領域還存在著很多問題,諸如:信息抽取性能不足、自動化程度不高(訓練語料的收集、標注需要大量人工操作)、適用范圍有限、缺乏移植能力。本文分析了在利用隱馬爾可夫模型(HMM)訓練建立信息抽取方法中遇到的問題和不足后,借助最大熵原理在處理特征知識表示方面的優(yōu)勢,提出了改進的HMM。在HMM中加入前向、后向依賴,利用發(fā)射單元特征信息和上下文信息來調整模型參數。改進后的HMM狀態(tài)轉移概率和觀察值發(fā)射概率不僅依賴于模型的當前狀態(tài)值,而且可以以模型的前向狀態(tài)值和后向特征值加以修正。考慮網頁數據的特點,文中通過利用網頁所特有的屬性提出一種適用于網頁信息抽取的模型,該模型的建立是基于改進的HMM。利用網頁中相似或相關的內容聚集在一起的性質,在本文中使用網頁內容塊作為基本抽取單元(發(fā)射單元);利用網頁布局結構使用VIPS算法,得到適用于網頁的狀態(tài)轉移順序;利用網頁數據中的其他屬性信息(語義、布局、格式等),得到適用于網頁的觀察值發(fā)射概率的計算公式。而文中網頁信息抽取模型整體上類似分層結構,通過對網頁的分析兩次選取不同的基本抽取單元完成對網頁數據的精細抽取。
【關鍵詞】:隱馬爾可夫模型 最大熵原理 網頁信息抽取 網頁內容塊
【學位授予單位】:華東師范大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP391.1
【目錄】:
- 摘要6-7
- ABSTRACT7-11
- 第一章 緒論11-17
- 1.1 信息抽取的背景與意義11-12
- 1.2 信息抽取國內外研究現狀12-13
- 1.3 信息抽取現階段存在的問題及未來的挑戰(zhàn)和趨勢13-14
- 1.3.1 信息抽取存在的問題13-14
- 1.3.2 信息抽取的發(fā)展趨勢14
- 1.4 論文的研究目標和工作內容14-15
- 1.5 論文的組織結構15-16
- 1.6 本章小結16-17
- 第二章 相關理論基礎與技術方法17-31
- 2.1 信息抽取的基本概念17-19
- 2.1.1 信息抽取的定義17-18
- 2.1.2 信息抽取的任務及常用方法18-19
- 2.2 網頁信息抽取的基本概念和方法19-21
- 2.2.1 網頁信息抽取的定義19-20
- 2.2.2 網頁信息抽取的主流方法20-21
- 2.3 隱馬爾可夫模型21-30
- 2.3.1 隱馬爾可夫模型簡介23-25
- 2.3.2 隱馬爾科夫模型的三個主要問題及解決算法25-29
- 2.3.3 數據稀疏問題及解決方法29-30
- 2.4 本章小結30-31
- 第三章 基于最大熵原理提出的改進的隱馬爾科夫模型31-45
- 3.1 擴展HMM前提假設的改進方法31-37
- 3.1.1 擴展HMM前提假設的基本理論32-33
- 3.1.2 二階隱馬爾可夫模型33-37
- 3.2 改進的隱馬爾可夫模型的思想概述37-43
- 3.2.1 最大熵原理38-40
- 3.2.2 改進的隱馬爾可夫模型的定義40-43
- 3.3 本章小結43-45
- 第四章 基于改進的隱馬爾科夫模型在網頁信息抽取中解決方案的設計45-57
- 4.1 網頁信息抽取模型設計概覽45-48
- 4.2 網頁數據準備階段48-51
- 4.2.1 數據預處理48-49
- 4.2.2 模型結構的選擇49-51
- 4.3 模型訓練階段的設計實現51-54
- 4.3.1 改進的HMM相關參數的訓練51-53
- 4.3.2 針對模型參數進一步優(yōu)化的改進建議53-54
- 4.4 完成信息抽取階段54-55
- 4.4.1 改進的viterbi算法54-55
- 4.5 本章小結55-57
- 第五章 基于改進的隱馬爾可夫模型在網頁信息抽取中研究的實驗性驗證57-65
- 5.1 信息抽取的評價指標57-58
- 5.2 驗證改進的HMM的有效性58-60
- 5.3 基于改進的HMM的網頁信息抽取模型的評估60-63
- 5.3.1 數據集大小對訓練結果的影響62-63
- 5.4 本章小結63-65
- 第六章 總結與展望65-67
- 6.1 論文的特色65-66
- 6.2 后續(xù)工作展望66-67
- 參考文獻67-73
- 作者簡歷及攻讀碩士學位期間發(fā)表的學術論文73-75
- 致謝75
【參考文獻】
中國期刊全文數據庫 前5條
1 郭喜躍;何婷婷;;信息抽取研究綜述[J];計算機科學;2015年02期
2 李榮;馮麗萍;王鴻斌;;基于改進遺傳退火HMM的Web信息抽取研究[J];計算機應用與軟件;2014年04期
3 陳釗;張冬梅;;Web信息抽取技術綜述[J];計算機應用研究;2010年12期
4 王達;崔蕊;;數據平滑技術綜述[J];電腦知識與技術;2009年17期
5 楊少華;林海略;韓燕波;;針對模板生成網頁的一種數據自動抽取方法(英文)[J];軟件學報;2008年02期
中國碩士學位論文全文數據庫 前1條
1 許志堅;中文Deep Web數據集成系統的研究與應用[D];華東師范大學;2013年
,本文編號:522013
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/522013.html