天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

Web信息抽取規(guī)則的設(shè)計和實現(xiàn)

發(fā)布時間:2024-04-12 18:34
  Web成為目前全球規(guī)模最大的信息源,包含了大量有價值的信息。Web信息抽取技術(shù)研究如何從網(wǎng)頁上精確獲取為用戶或應(yīng)用感興趣的信息。現(xiàn)有的Web信息抽取研究大都集中于對已有網(wǎng)頁的自動化分析和數(shù)據(jù)抽取,忽略了信息抽取過程中復(fù)雜的網(wǎng)頁瀏覽導(dǎo)航過程,以及抽取后數(shù)據(jù)的集成處理問題。針對現(xiàn)有研究工作的不足,本文首先研究全過程化Web信息抽取模型,該模型將綜合考慮網(wǎng)頁瀏覽導(dǎo)航、網(wǎng)頁數(shù)據(jù)抽取及數(shù)據(jù)集成三個完整處理過程。 在網(wǎng)頁瀏覽導(dǎo)航階段,本文研究提出一種網(wǎng)頁瀏覽導(dǎo)航動作模型,該模型能刻畫用戶在網(wǎng)頁上交互和瀏覽跳轉(zhuǎn)的動作和行為,然后在網(wǎng)頁數(shù)據(jù)抽取運行時,通過回放這種網(wǎng)頁交互和瀏覽跳轉(zhuǎn)動作,即可自動完成抽取過程中相關(guān)網(wǎng)頁的連接跳轉(zhuǎn)。在網(wǎng)頁數(shù)據(jù)抽取階段,本文將研究一種能綜合處理各種復(fù)雜格式網(wǎng)頁數(shù)據(jù)記錄的數(shù)據(jù)抽取模型,可解決非規(guī)整數(shù)據(jù)網(wǎng)頁和多種復(fù)雜的規(guī)則數(shù)據(jù)網(wǎng)頁的數(shù)據(jù)記錄抽取處理。在數(shù)據(jù)集成階段,我們將研究采用基于XML的層次式目標(biāo)數(shù)據(jù)模型,可允許用戶定義各種復(fù)雜的目標(biāo)數(shù)據(jù)實體結(jié)構(gòu),并通過一定的數(shù)據(jù)轉(zhuǎn)換和映射方法,將從網(wǎng)頁上抽取出來的原始數(shù)據(jù)集成為所指定的目標(biāo)數(shù)據(jù)記錄。 基于以上全過程的Web信息抽取模型,本...

【文章頁數(shù)】:68 頁

【學(xué)位級別】:碩士

【部分圖文】:

圖4Web頁面信息塊抽取平臺

圖4Web頁面信息塊抽取平臺

息塊結(jié)果輸出。3 應(yīng)用實例和測試圖4和圖5是使用文中設(shè)計的分割和抽取規(guī)則實現(xiàn)的Web頁面信息塊抽取平臺的運行畫面。圖4 Web頁面信息塊抽取平臺圖5 Web頁面擴展DOM樹和信息抽取結(jié)果圖4顯示出待處理的Web頁面,圖5通過標(biāo)簽分別給出該頁面的擴展DOM樹和信息塊抽取結(jié)果。我們利....


圖5Web頁面擴展DOM樹和信息抽取結(jié)果

圖5Web頁面擴展DOM樹和信息抽取結(jié)果

息塊結(jié)果輸出。3 應(yīng)用實例和測試圖4和圖5是使用文中設(shè)計的分割和抽取規(guī)則實現(xiàn)的Web頁面信息塊抽取平臺的運行畫面。圖4 Web頁面信息塊抽取平臺圖5 Web頁面擴展DOM樹和信息抽取結(jié)果圖4顯示出待處理的Web頁面,圖5通過標(biāo)簽分別給出該頁面的擴展DOM樹和信息塊抽取結(jié)果。我們利....



本文編號:3951799

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/3951799.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶c440d***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com