自適應Web頁面數(shù)據(jù)抽取方法
本文選題:自適應 + 數(shù)據(jù)抽取 ; 參考:《計算機與數(shù)字工程》2016年11期
【摘要】:針對Web頁面數(shù)據(jù)抽取問題,提出了一種基于抽取模板的自適應Web頁面數(shù)據(jù)抽取方法。給出了自適應web數(shù)據(jù)抽取的整體流程,詳細介紹了抽取模板中抽取規(guī)則和自適應搜索規(guī)則的定義方式,web頁面與抽取模板的匹配方法,以及抽取路徑失效后目標數(shù)據(jù)的搜索與抽取模板的自適應修改過程。實驗結果表明,基于抽取模板的自適應web頁面數(shù)據(jù)抽取方法的召回率和查準率都達到95%以上,方法中的自適應搜索規(guī)則有效地減少了抽取模板的制定數(shù)量。
[Abstract]:To solve the problem of Web page data extraction, an adaptive Web page data extraction method based on extraction template is proposed.The whole process of adaptive web data extraction is given, and the definition of extraction rules and adaptive search rules in extraction template is introduced in detail.And the process of target data searching and the adaptive modification of extraction template after the extraction path failure.The experimental results show that the recall rate and the precision rate of the adaptive web page data extraction method based on extracting template are over 95%, and the adaptive search rules in the method can effectively reduce the number of template formulation.
【作者單位】: 遼寧大學信息學院;
【分類號】:TP391.1
【相似文獻】
相關會議論文 前4條
1 蔣理成;;增量數(shù)據(jù)抽取(ETL)技術[A];第二十四屆中國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2007年
2 張文東;袁春風;武港山;;基于視覺的網頁數(shù)據(jù)抽取[A];2009年研究生學術交流會通信與信息技術論文集[C];2009年
3 龔英_";;Tribon M3系統(tǒng)快速繪圖開發(fā)[A];2007年CAD/CAM學術交流會議論文集[C];2007年
4 閆洋洋;郝德建;王鵬;張軟玉;;數(shù)字核信號智能采樣理論和方法研究[A];第十六屆全國核電子學與核探測技術學術年會論文集(下冊)[C];2012年
相關重要報紙文章 前3條
1 廣東省電信公司科學技術研究院 汪虹;數(shù)據(jù)抽取: 復雜電信數(shù)據(jù)的統(tǒng)一路[N];計算機世界;2002年
2 中青旅尚洋電子技術有限公司 史小六 陳如璇;細看集中技術[N];網絡世界;2003年
3 ;中創(chuàng)軟件電力信息整合方案[N];計算機世界;2006年
相關博士學位論文 前5條
1 鄧緒斌;面向復雜數(shù)據(jù)源的數(shù)據(jù)抽取模型和算法研究[D];復旦大學;2005年
2 張敬偉;Web論壇數(shù)據(jù)抽取[D];華東師范大學;2012年
3 陳珂銳;基于本體演化的Deep Web數(shù)據(jù)抽取與注釋[D];吉林大學;2011年
4 辛潔;Deep Web數(shù)據(jù)抽取及精煉方法研究[D];蘇州大學;2014年
5 黃健斌;基于條件概率圖模型的Deep Web數(shù)據(jù)抽取與集成研究[D];西安電子科技大學;2007年
相關碩士學位論文 前10條
1 呂鵬濤;鋼鐵本體的構建及實例填充系統(tǒng)的設計[D];河北科技大學;2015年
2 常麗君;Web數(shù)據(jù)抽取技術的研究[D];南京財經大學;2014年
3 溫璐;基于區(qū)段查詢的增量數(shù)據(jù)抽取器的設計與實現(xiàn)[D];河北科技大學;2015年
4 崔琳爽;煤化工領域數(shù)據(jù)抽取及可視化應用[D];北京林業(yè)大學;2016年
5 景寒星;基于標簽樹的列表頁面數(shù)據(jù)抽取技術研究[D];華東師范大學;2011年
6 姚志鵬;數(shù)據(jù)抽取、轉換、加載描述規(guī)范的研究與應用[D];青島大學;2013年
7 韓強;一種高效的圖數(shù)據(jù)抽取技術的研究[D];云南大學;2015年
8 馮全磊;分布式軌道監(jiān)測數(shù)據(jù)抽取與可視化研究[D];大連理工大學;2012年
9 賈艷凱;多源異構增量數(shù)據(jù)抽取方法研究與設計[D];哈爾濱工程大學;2013年
10 傅民軒;數(shù)據(jù)共享平臺數(shù)據(jù)抽取子系統(tǒng)的設計與實現(xiàn)[D];哈爾濱工業(yè)大學;2011年
,本文編號:1736494
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/1736494.html