天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 管理論文 > 移動網絡論文 >

面向動態(tài)Web應用的數據采集與抽取技術研究與實現(xiàn)

發(fā)布時間:2024-03-31 21:17
  隨著信息技術的發(fā)展,人類進入大數據時代,大數據分析不僅在商業(yè)競爭中至關重要,在公共事業(yè)領域,大數據在促進經濟發(fā)展、維護社會穩(wěn)定等方面也發(fā)揮著重要作用,政府部門加快大數據開發(fā)開放已經成為必然選擇。但此前政務數據缺乏科學的管理和系統(tǒng)的規(guī)劃,導致了政務數據源分散、數據相對割裂、應用和服務碎片化的情況,造成政務數據開放工作中高質量的數據源獲取困難的問題,如何自動、高效地獲取政務系統(tǒng)數據源成為近年研究熱點。本文研究如何自動獲取異構、獨立的政務系統(tǒng)網站頁面,在對政務系統(tǒng)網站進行協(xié)議和結構分析的基礎上,提出一種基于事件模擬的動態(tài)Web頁面采集框架,框架創(chuàng)新性地引入代理網關實現(xiàn)向目標網站中注入JavaScript代碼,并采用內置原生瀏覽器的方式實現(xiàn)網頁中JavaScript腳本解析和頁面渲染。在采集策略方面,框架對已有研究中狀態(tài)轉換方法進行改進,最終實現(xiàn)對動、靜態(tài)兩種網站兼容的自動化頁面采集方案。在此基礎上,對政務系統(tǒng)中兩種典型的半結構化信息:列表類信息和主題類信息的抽取,分別提出樹對齊算法和文本密度算法。樹對齊算法提出利用網頁DOM樹特性識別并分割數據記錄,在將數據記錄進行對齊時采用部分對齊的方式,...

【文章頁數】:77 頁

【學位級別】:碩士

【部分圖文】:

圖1-1MVC應用構件模型及運行框架[12]??

圖1-1MVC應用構件模型及運行框架[12]??

?北京郵電大學工學碩士學位論文???(2)視圖(View)定義用戶界面中數據展示及布局信息,并且實現(xiàn)了將界??面上的用戶操作轉化為構件控制器中功能。??(3)控制器(Controller)實現(xiàn)構件的主體業(yè)務邏輯,并對應用如何控制模??型和視圖元素進行定義,在此基礎之上,開發(fā)人員可....


圖2-4CSS文件中偽類的應用

圖2-4CSS文件中偽類的應用

圖2-6頁面彈窗問題展示??從以上幾個方面可以看出目前動態(tài)爬蟲的研宄工作中仍然存在諸多困難與??挑戰(zhàn),本文的Web數據采集研究將針對爬取動態(tài)網站提出一種新的方法,并對己??有的工作和存在的問題進行改良和優(yōu)化,實現(xiàn)基于事件模擬的Web頁面采集框架,??幫助使用者更加高效和穩(wěn)定地完成....


圖2一SJavasctipt中對CSS偽類的引用

圖2一SJavasctipt中對CSS偽類的引用

圖2-6頁面彈窗問題展示??從以上幾個方面可以看出目前動態(tài)爬蟲的研宄工作中仍然存在諸多困難與??挑戰(zhàn),本文的Web數據采集研究將針對爬取動態(tài)網站提出一種新的方法,并對己??有的工作和存在的問題進行改良和優(yōu)化,實現(xiàn)基于事件模擬的Web頁面采集框架,??幫助使用者更加高效和穩(wěn)定地完成....


圖2-7抽取規(guī)則生成流程圖[31】??該算法在構建PAT樹前需要對網頁中所有標簽和文本進行前綴編碼,由于網??

圖2-7抽取規(guī)則生成流程圖[31】??該算法在構建PAT樹前需要對網頁中所有標簽和文本進行前綴編碼,由于網??

(2)?IEPAD[31]基于模式發(fā)現(xiàn)的方法從半結構化文檔中抽取結構化數據。算??法利用類似后綴樹的數據結構PAT?(Practical?Algorithm?for?Retrieve?Information??Coded?in?Alphanumeric?Tree)來發(fā)現(xiàn)同構的數據....



本文編號:3944506

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/3944506.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶0ad7d***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com