天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

網(wǎng)絡信息自動化高效抽取技術研究

發(fā)布時間:2021-03-25 19:56
  隨著互聯(lián)網(wǎng)爆炸式的發(fā)展和普及,網(wǎng)絡信息已經(jīng)成為了一種寶貴的信息數(shù)據(jù)資源。海量的網(wǎng)絡數(shù)據(jù)使得數(shù)據(jù)分析與挖掘系統(tǒng)進入了一個新時代,越來越多的網(wǎng)絡應用系統(tǒng)需要對來自不同數(shù)據(jù)源的結構化數(shù)據(jù)進行抽取、挖掘和整合。然而,由于網(wǎng)頁文檔的半結構化性質,網(wǎng)頁上呈現(xiàn)的數(shù)據(jù)往往不能被機器自動地抽取和理解,因此,網(wǎng)絡信息抽取的研究目標在于提取網(wǎng)頁的結構化數(shù)據(jù)。互聯(lián)網(wǎng)數(shù)據(jù)的海量規(guī)模與高度異構的特征,為網(wǎng)絡信息抽取工作帶來了巨大的挑戰(zhàn)。本文圍繞網(wǎng)絡信息的海量規(guī)模與高度異構的特征,分數(shù)據(jù)記錄抽取和數(shù)據(jù)單元抽取兩個層次,對自動化、高效抽取網(wǎng)絡信息的技術展開了相關研究,研究內容包括以下四個方面:1.針對網(wǎng)絡信息高度異構的特點,提出新的自動化的基于錨點樹的數(shù)據(jù)記錄的抽取方法(Mining data records Based on Anchor Trees,MiBAT)。首先分析了當數(shù)據(jù)記錄含有一定的不規(guī)則內容時(例如用戶原創(chuàng)內容)時,現(xiàn)有的基于相似度檢測的自動化方法并不能取得理想的抽取效果。本文提出錨點的概念,對應數(shù)據(jù)記錄中的某些關鍵的數(shù)據(jù)單元。例如,每個用戶創(chuàng)建、發(fā)表的帖子記錄(例如在線論壇帖子、用戶評論等)都含有發(fā)... 

【文章來源】:哈爾濱工業(yè)大學黑龍江省 211工程院校 985工程院校

【文章頁數(shù)】:127 頁

【學位級別】:博士

【文章目錄】:
摘要
ABSTRACT
第1章 緒論
    1.1 研究背景和意義
    1.2 網(wǎng)絡信息抽取的相關概念
        1.2.1 HTML網(wǎng)頁與DOM樹
        1.2.2 樹匹配與標簽路徑
    1.3 網(wǎng)絡信息抽取的研究現(xiàn)狀
        1.3.1 相關工作分類
        1.3.2 人工化方法
        1.3.3 半自動化方法
        1.3.4 全自動化方法
        1.3.5 綜合對比與總結
    1.4 論文主要研究內容
        1.4.1 問題定義
        1.4.2 研究綜述
第2章 基于錨點樹的數(shù)據(jù)記錄抽取方法
    2.1 引言
    2.2 MiBAT綜述
    2.3 基于枚舉子樹的錨點樹尋找方法
        2.3.1 樹結構相似度檢測準則
        2.3.2 基于枚舉子樹的錨點樹尋找算法
        2.3.3 時間復雜度分析
    2.4 確定數(shù)據(jù)記錄邊界
        2.4.1 數(shù)據(jù)記錄邊界的三種情形
        2.4.2 數(shù)據(jù)記錄邊界確定算法
        2.4.3 時間復雜度分析
    2.5 論壇帖子抽取實驗
        2.5.1 數(shù)據(jù)集
        2.5.2 主要區(qū)域選擇
        2.5.3 評測指標
        2.5.4 基準方法
        2.5.5 評測結果
        2.5.6 實例分析
    2.6 博客與點評網(wǎng)站的用戶評論抽取實驗
    2.7 與監(jiān)督學習方法的對比實驗
    2.8 本章小結
第3章 錨點樹的快速尋找方法
    3.1 引言
    3.2 基于標簽路徑聚集的錨點樹尋找方法
        3.2.1 基于標簽路徑聚集的錨點樹尋找算法
        3.2.2 時間復雜度分析
        3.2.3 引入錨點的兄弟結點約束
    3.3 兩種錨點樹尋找算法的比較
        3.3.1 相似性衡量方法
        3.3.2 算法過程和時間復雜度
        3.3.3 錨點解釋方法
        3.3.4 MiBAT的整體時間復雜度
    3.4 兩種MiBAT方法的對比實驗
        3.4.1 運行效率對比
        3.4.2 抽取準確度對比
    3.5 本章小結
第4章 通用錨點的檢測方法
    4.1 引言
    4.2 通用錨點
        4.2.1 通用錨點的定義
        4.2.2 基于通用錨點的錨點樹尋找方法
        4.2.3 通用錨點與領域錨點的比較
    4.3 實驗
        4.3.1 通用錨點的計算設置
        4.3.2 兩種錨點抽取效果對比
        4.3.3 抽取搜索結果記錄
        4.3.4 基于實例比較MiBAT的不同變體方法
    4.4 本章小結
第5章 DOM樹的快速匹配方法
    5.1 引言
    5.2 基于哈希標簽路徑
        5.2.1 基于哈希標簽路徑的樹匹配算法
        5.2.2 時間復雜度分析
        5.2.3 匹配結果分析
    5.3 基于標簽路徑序列最長公共子列
        5.3.1 基于標簽路徑序列最長公共子列的樹匹配算法
        5.3.2 時間復雜度分析
        5.3.3 匹配結果分析
    5.4 實驗
        5.4.1 實驗設置
        5.4.2 算法運行效率對比
        5.4.3 樹匹配準確度對比
        5.4.4 數(shù)據(jù)單元對齊準確度對比
    5.5 本章小結
結論
參考文獻
攻讀博士學位期間發(fā)表的論文及其他成果
致謝
個人簡歷


【參考文獻】:
期刊論文
[1]基于智能的網(wǎng)頁信息提取系統(tǒng)的研究與設計[J]. 劉亞東,彭艦,張達平.  四川大學學報(自然科學版). 2009(04)
[2]基于模板的Web信息自動提取方法[J]. 鄭長松,傅彥,佘莉.  計算機應用研究. 2009(02)
[3]針對模板生成網(wǎng)頁的一種數(shù)據(jù)自動抽取方法(英文)[J]. 楊少華,林海略,韓燕波.  軟件學報. 2008(02)
[4]一種全自動生成網(wǎng)頁信息抽取Wrapper的方法[J]. 梅雪,程學旗,郭巖,張剛,丁國棟.  中文信息學報. 2008(01)
[5]基于DOM的Web信息提取[J]. 李效東,顧毓清.  計算機學報. 2002(05)
[6]基于樣本實例的Web信息抽取[J]. 張紹華,徐林昊,楊文柱,薛文玲,李天柱.  河北大學學報(自然科學版). 2001(04)
[7]XWIS中基于預定義模式的包裝器[J]. 孟小峰,王海燕,谷明哲,王靜.  計算機應用. 2001(09)
[8]基于多層模式的多記錄網(wǎng)頁信息抽取方法[J]. 朱明,王軍,王俊普.  計算機工程. 2001(09)



本文編號:3100231

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/3100231.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶6dfc9***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com