基于知識圖譜的Web信息抽取系統(tǒng)
本文選題:知識圖譜 + 多領(lǐng)域; 參考:《計算機工程》2017年06期
【摘要】:為實現(xiàn)多領(lǐng)域海量網(wǎng)頁信息的有效抽取,以中文知識圖譜CN-DBpedia為基礎(chǔ)設(shè)計Web信息抽取系統(tǒng);谥R圖譜對網(wǎng)頁數(shù)據(jù)項進行自動標(biāo)注,建立具有容錯能力的包裝器歸納框架,從包含錯誤的標(biāo)注集中歸納學(xué)習(xí)出正確的包裝器。實驗結(jié)果表明,該系統(tǒng)的準(zhǔn)確率和召回率均高于傳統(tǒng)人工標(biāo)注方法,可顯著降低網(wǎng)頁信息抽取過程中的人力成本,靈活運用于大規(guī)模、多領(lǐng)域的網(wǎng)頁信息抽取任務(wù)。
[Abstract]:A Web information extraction system is designed based on CN-DBpedia, a Chinese knowledge map. Based on the knowledge map, the web page data items are automatically annotated, and a fault-tolerant wrapper inductive framework is established, and the correct wrapper is learned from the annotation set containing errors. The experimental results show that the accuracy and recall rate of the system are higher than those of the traditional manual annotation method, which can significantly reduce the human cost in the process of web page information extraction, and can be used flexibly in large-scale and multi-domain web page information extraction tasks.
【作者單位】: 上海電力學(xué)院經(jīng)濟與管理學(xué)院;復(fù)旦大學(xué)計算機科學(xué)技術(shù)學(xué)院;東華大學(xué)計算機科學(xué)與技術(shù)學(xué)院;
【基金】:上海市科技創(chuàng)新行動計劃基礎(chǔ)研究項目(15JC1400900) 上海市自然科學(xué)基金(13ZR1417700)
【分類號】:TP391.1;TP393.092
【相似文獻】
相關(guān)期刊論文 前10條
1 呂英杰;葉強;李一軍;;模糊綜合評判理論在網(wǎng)頁自動分類中的應(yīng)用[J];計算機工程;2007年15期
2 張俊英;胡俠;卜佳俊;;網(wǎng)頁文本信息自動提取技術(shù)綜述[J];計算機應(yīng)用研究;2009年08期
3 宋明秋;張瑞雪;吳新濤;李文立;;網(wǎng)頁正文信息抽取新方法[J];大連理工大學(xué)學(xué)報;2009年04期
4 張霞亮;陳家駿;;基于邏輯行和最大接納距離的網(wǎng)頁正文抽取[J];計算機工程與應(yīng)用;2009年25期
5 周序生;李爽;;網(wǎng)頁自動分類的建模與仿真研究[J];計算機仿真;2011年10期
6 張小娣;宋余慶;;基于網(wǎng)頁正文邏輯段落和長句提取的網(wǎng)頁去重算法[J];圖書情報研究;2012年02期
7 周楊;;基于關(guān)鍵長句及正文長度預(yù)分類的網(wǎng)頁去重算法研究[J];軟件導(dǎo)刊;2012年10期
8 黃玲;陳龍;;基于網(wǎng)頁分塊的正文信息提取方法[J];計算機應(yīng)用;2008年S2期
9 劉娟;趙曉楠;;網(wǎng)頁主題相關(guān)性判別的聚焦爬蟲系統(tǒng)的設(shè)計與實現(xiàn)[J];計算機與現(xiàn)代化;2012年10期
10 任玉;樊勇;鄭家恒;;基于分塊的網(wǎng)頁主題文本抽取[J];廣西師范大學(xué)學(xué)報(自然科學(xué)版);2009年01期
相關(guān)會議論文 前5條
1 唐超;劉辰;楊正球;;使用多層迭代分析和分類網(wǎng)頁文檔的方法[A];2007北京地區(qū)高校研究生學(xué)術(shù)交流會通信與信息技術(shù)會議論文集(上冊)[C];2008年
2 羅陽;季鐸;張桂平;王瑩瑩;;面向單一網(wǎng)頁的雙語資源挖掘方法[A];第六屆全國信息檢索學(xué)術(shù)會議論文集[C];2010年
3 劉菁菁;林鴻飛;;基于結(jié)構(gòu)和鏈接擴展的中文網(wǎng)頁分類研究[A];2007年全國開放式分布與并行計算機學(xué)術(shù)會議論文集(上冊)[C];2007年
4 張志強;梁婷婷;謝曉芹;;一種基于用戶標(biāo)記的搜索結(jié)果排序算法[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)[C];2009年
5 朱春江;陸宇e,
本文編號:2004226
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/2004226.html