一種基于SVM和AdaBoost的Web實體信息抽取方法

發(fā)布時間：2018-11-09 10:16

【摘要】：提出一種基于SVM和AdaBoost的Web實體信息抽取方法。首先提出一種基于SVM的Web頁面主數(shù)據(jù)區(qū)域識別方法,基于Web實體實例在頁面中的展示特征,有效地將Web頁面進行數(shù)據(jù)區(qū)域分割,識別出Web實體實例所在的主數(shù)據(jù)區(qū)域;然后基于Web實體屬性標簽的特征,提出一種基于AdaBoost的集成學習方法,從頁面的主數(shù)據(jù)區(qū)域自動地抽取Web實體信息。在兩個真實數(shù)據(jù)集上進行實驗,并與相關研究工作進行比較,實驗結果說明該方法能夠取得良好的抽取效果。
[Abstract]:A Web entity information extraction method based on SVM and AdaBoost is proposed. Firstly, a method of Web page main data area recognition based on SVM is proposed. Based on the display feature of Web entity instance in the page, the Web page is effectively divided into the data region, and the main data region of Web entity instance is identified. Then, based on the features of Web entity attribute label, an integrated learning method based on AdaBoost is proposed to extract Web entity information automatically from the main data area of the page. Experiments were carried out on two real data sets and compared with related research results. The experimental results show that the proposed method can achieve good results.
【作者單位】：山東大學計算機科學與技術學院;中國人力資源和社會保障部信息中心;
【基金】：國家科技支撐計劃項目(2008BAH32B01)
【分類號】：TP393.09;TP18

【參考文獻】

相關期刊論文前3條

1 胡東東,孟小峰;一種基于樹結構的Web數(shù)據(jù)自動抽取方法[J];計算機研究與發(fā)展;2004年10期

2 丁艷輝;李慶忠;董永權;彭朝暉;;基于集成學習和二維關聯(lián)邊條件隨機場的Web數(shù)據(jù)語義標注方法[J];計算機學報;2010年02期

3 楊少華;林海略;韓燕波;;針對模板生成網(wǎng)頁的一種數(shù)據(jù)自動抽取方法(英文)[J];軟件學報;2008年02期

【共引文獻】

相關期刊論文前10條

1 趙靖;王僑文;管馬周;單傳佳;;自動提取布局結構相似網(wǎng)頁的結構化信息[J];安徽科技學院學報;2010年06期

2 張彥超;劉云;李勇;沈波;;基于自動生成模板的Web信息抽取技術[J];北京交通大學學報;2009年05期

3 袁鴻雁;;基于本體的HTML表格識別技術的研究[J];長春工程學院學報(自然科學版);2010年01期

4 何友全;徐澄;徐小樂;唐華姣;;一種基于統(tǒng)計學特征和DOM樹的網(wǎng)頁去噪技術[J];重慶理工大學學報(自然科學版);2011年01期

5 李舒晨;劉云;李勇;;網(wǎng)絡輿情分析中網(wǎng)頁信息預處理方案的實現(xiàn)[J];電腦與電信;2008年10期

6 杜茂康;李韶華;劉苗;;基于MEDL模型的HTML向XML的轉換方法[J];重慶郵電大學學報(自然科學版);2012年06期

7 鄧緒斌;朱揚勇;;ReDE:一個基于正則表達式的生物數(shù)據(jù)抽取方法[J];計算機研究與發(fā)展;2005年12期

8 李石君;于俊清;歐偉杰;;基于HTML模式代數(shù)的Web信息提取方法[J];計算機研究與發(fā)展;2006年09期

9 寇月;李冬;申德榮;于戈;聶鐵錚;;D-EEM:一種基于DOM樹的Deep Web實體抽取機制[J];計算機研究與發(fā)展;2010年05期

10 王宇;譚松波;廖祥文;曾依靈;;基于擴展領域模型的有名屬性抽取[J];計算機研究與發(fā)展;2010年09期

相關會議論文前2條

1 袁鴻雁;;Web表格信息抽取技術的研究[A];2008'中國信息技術與應用學術論壇論文集（一）[C];2008年

2 閆中敏;李慶忠;彭朝暉;董永權;丁艷輝;張永新;徐秀星;;DWDIS:面向分析的Deep Web數(shù)據(jù)集成系統(tǒng)[A];NDBC2010第27屆中國數(shù)據(jù)庫學術會議論文集(B輯)[C];2010年

相關博士學位論文前10條

1 閆中敏;Deep Web數(shù)據(jù)獲取問題研究[D];山東大學;2010年

2 吳承榮;骨干通道上的網(wǎng)絡論壇通信信息監(jiān)測和分析的關鍵技術研究[D];復旦大學;2011年

3 高恒振;高光譜遙感圖像分類技術研究[D];國防科學技術大學;2011年

4 吳春明;Deep Web數(shù)據(jù)集成關鍵技術及其在農(nóng)業(yè)領域的應用[D];西南大學;2011年

5 劉娜;文本自動摘要和信息抽取方法及其應用研究[D];大連海事大學;2012年

6 徐和祥;Deep Web集成中若干技術研究[D];復旦大學;2008年

7 趙朋朋;Deep Web信息集成若干關鍵技術研究[D];蘇州大學;2008年

8 方巍;基于本體的Deep Web信息集成關鍵技術研究[D];蘇州大學;2009年

9 董永權;Deep Web數(shù)據(jù)集成關鍵問題研究[D];山東大學;2010年

10 丁艷輝;面向Web數(shù)據(jù)集成的數(shù)據(jù)抽取問題研究[D];山東大學;2010年

相關碩士學位論文前10條

1 孫嶺;一種基于前綴表達式的Web信息抽取方法的關鍵問題的實現(xiàn)[D];山東科技大學;2010年

2 沙有闖;基于Web文本挖掘的網(wǎng)絡口碑監(jiān)測系統(tǒng)研究[D];安徽大學;2010年

3 高永勝;基于樹形結構的網(wǎng)頁數(shù)據(jù)抽取模式研究及應用[D];大連理工大學;2011年

4 解濤;精確Web信息抽取集成模型與關鍵技術研究[D];南京大學;2011年

5 馬燕;基于快速相似度的Web結構挖掘的研究[D];南京信息工程大學;2011年

6 羅偉;Web數(shù)據(jù)集成中包裝器自適應方法研究[D];山東大學;2011年

7 徐秀星;Web數(shù)據(jù)集成中全局模式構建方法研究[D];山東大學;2011年

8 鄧蓉;基于本體的深度搜索系統(tǒng)關鍵詞庫的構造與研究[D];江西師范大學;2011年

9 周p，

本文編號：2320116

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://www.sikaile.net/guanlilunwen/ydhl/2320116.html

上一篇：基于側信道分析的硬件木馬檢測平臺設計
下一篇：購物比價網(wǎng)站的交互設計研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

一種基于SVM和AdaBoost的Web實體信息抽取方法