可擴(kuò)展的網(wǎng)頁關(guān)鍵信息抽取研究
本文選題:關(guān)鍵信息 + 信息抽取 ; 參考:《中文信息學(xué)報(bào)》2015年01期
【摘要】:該文提出了一種可擴(kuò)展的網(wǎng)頁關(guān)鍵信息抽取框架。該框架很好地融合了模板無關(guān)的全自動(dòng)信息抽取算法和基于模板的信息抽取算法,從本質(zhì)上提高抽取精度和抽取效率。該框架中的一些關(guān)鍵環(huán)節(jié)可根據(jù)需求進(jìn)行替換,因此該框架具有很好的可擴(kuò)展性。同時(shí),該文還提出了模板的正交過濾算法。將該算法引入基于模板的抽取算法中,能夠從本質(zhì)上提高生成的模板的準(zhǔn)確性。實(shí)驗(yàn)結(jié)果驗(yàn)證了上述結(jié)論。
[Abstract]:In this paper, an extensible framework for extracting key information from web pages is proposed.The framework combines the template independent automatic information extraction algorithm and the template based information extraction algorithm to improve the extraction accuracy and efficiency.Some key links in the framework can be replaced according to requirements, so the framework has good scalability.At the same time, an orthogonal filtering algorithm for templates is proposed.This algorithm can improve the accuracy of the generated template in essence by introducing it into the template extraction algorithm.The experimental results verify the above conclusions.
【作者單位】: 中國科學(xué)院計(jì)算技術(shù)研究所;中國科學(xué)院大學(xué);
【基金】:國家自然科學(xué)基金(61100083) 國家863計(jì)劃基金(2012AA011003)
【分類號(hào)】:TP393.092;TP391.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 松濤;“吸”盡網(wǎng)絡(luò)中有用的網(wǎng)頁信息[J];電腦知識(shí)與技術(shù);2004年13期
2 朱精南,趙明生;網(wǎng)頁版面信息分析[J];計(jì)算機(jī)工程;2004年12期
3 梁邦勇,李涓子,王克宏;基于語義Web的網(wǎng)頁推薦模型[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2004年09期
4 王海燕;張正凱;任建浩;;從審美角度淺談網(wǎng)頁藝術(shù)設(shè)計(jì)[J];中國電化教育;2004年09期
5 賈海龍,任玉珍;網(wǎng)頁藝術(shù)設(shè)計(jì)[J];新鄉(xiāng)師范高等?茖W(xué)校學(xué)報(bào);2005年05期
6 劉肖冰;淺談網(wǎng)頁藝術(shù)設(shè)計(jì)[J];安陽師范學(xué)院學(xué)報(bào);2005年05期
7 孫迎春;;網(wǎng)頁設(shè)計(jì)研究[J];南平師專學(xué)報(bào);2005年03期
8 文濤;網(wǎng)頁的視覺傳達(dá)設(shè)計(jì)與分析[J];沈陽教育學(xué)院學(xué)報(bào);2005年01期
9 宋春暉;網(wǎng)頁設(shè)計(jì)中的美學(xué)應(yīng)用分析[J];海南師范學(xué)院學(xué)報(bào)(自然科學(xué)版);2005年01期
10 張秀虎;;淺談網(wǎng)頁的訪問權(quán)限[J];教育信息化;2005年17期
相關(guān)會(huì)議論文 前10條
1 吳建軍;;談網(wǎng)頁設(shè)計(jì)的藝術(shù)性表現(xiàn)[A];經(jīng)天緯地——全國測(cè)繪科技信息網(wǎng)中南分網(wǎng)第十九次學(xué)術(shù)交流會(huì)優(yōu)秀論文選編[C];2005年
2 韓近強(qiáng);趙靜;楊冬青;唐世渭;姚小波;;基于領(lǐng)域知識(shí)的網(wǎng)頁篩選系統(tǒng)[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2002年
3 昝紅英;蘇玉梅;孫斌;俞士汶;;基于淺層分析的網(wǎng)頁相關(guān)度研究[A];語言計(jì)算與基于內(nèi)容的文本處理——全國第七屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2003年
4 孫靜;劉正捷;奚小玲;王慧;;幫助盲人理解網(wǎng)頁信息的一種網(wǎng)頁結(jié)構(gòu)劃分方法[A];第一屆建立和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2005)論文集[C];2005年
5 曹淮;晁丁丁;;3D元素在網(wǎng)頁信息傳達(dá)中的應(yīng)用研究[A];2006年中國機(jī)械工程學(xué)會(huì)年會(huì)暨中國工程院機(jī)械與運(yùn)載工程學(xué)部首屆年會(huì)論文集[C];2006年
6 唐超;劉辰;楊正球;;使用多層迭代分析和分類網(wǎng)頁文檔的方法[A];2007北京地區(qū)高校研究生學(xué)術(shù)交流會(huì)通信與信息技術(shù)會(huì)議論文集(上冊(cè))[C];2008年
7 馬驍;王曉龍;王軒;卜永忠;;基于網(wǎng)頁信息結(jié)構(gòu)的網(wǎng)頁體裁聚類分析[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年
8 羅陽;季鐸;張桂平;王瑩瑩;;面向單一網(wǎng)頁的雙語資源挖掘方法[A];第六屆全國信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年
9 王宇;黃煒;肖艷芹;任建立;李天柱;;ORBASE用于基于內(nèi)容的Web查詢[A];第十七屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2000年
10 于滿泉;譚松波;許洪波;;網(wǎng)頁內(nèi)部結(jié)構(gòu)挖掘技術(shù)研究[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2004年
相關(guān)重要報(bào)紙文章 前10條
1 本報(bào)記者 曾居仁 通訊員 郝金榮;貴州“萬村千鄉(xiāng)”網(wǎng)頁工程開辟為農(nóng)服務(wù)新渠道[N];中國氣象報(bào);2012年
2 壯壯;批量保存網(wǎng)頁信息[N];電腦報(bào);2004年
3 羅震宇 嚴(yán)小斌;一種新型WEB開發(fā)技術(shù)的探討[N];中國冶金報(bào);2011年
4 錢鵬;網(wǎng)盡Web頁中的好東東[N];電腦報(bào);2004年
5 星之海洋;邁出網(wǎng)頁制作的第一步[N];電腦報(bào);2004年
6 河南 張金貴;FrontPage2000組件詳解(四)[N];電腦報(bào);2001年
7 楓爾;網(wǎng)站瀏覽提速的五大秘方[N];中國證券報(bào);2004年
8 飄零劍客;網(wǎng)絡(luò)監(jiān)控利器——AnyView[N];中國電腦教育報(bào);2004年
9 八戒;眨眼之間 答案立現(xiàn)[N];電腦報(bào);2013年
10 ;網(wǎng)絡(luò)應(yīng)用 天龍八“步” 申請(qǐng)上網(wǎng)賬號(hào)[N];電腦報(bào);2002年
相關(guān)博士學(xué)位論文 前10條
1 陳潔;基于概念融合的網(wǎng)頁篩選技術(shù)研究[D];北京郵電大學(xué);2013年
2 龔昌盛;基于語義標(biāo)注的網(wǎng)頁廣告加載模型研究[D];武漢大學(xué);2010年
3 孫建濤;Web挖掘中的降維和分類方法研究[D];清華大學(xué);2005年
4 黃華軍;網(wǎng)頁信息隱藏與隱秘信息檢測(cè)研究[D];湖南大學(xué);2007年
5 徐晴陽;基于關(guān)系子群發(fā)現(xiàn)算法的聚焦爬行技術(shù)[D];吉林大學(xué);2008年
6 曹魯慧;Web個(gè)人信息集成問題研究[D];山東大學(xué);2012年
7 劉馨月;Web挖掘中的鏈接分析與話題檢測(cè)研究[D];大連理工大學(xué);2012年
8 羅娜;基于本體的主題爬行技術(shù)研究[D];吉林大學(xué);2009年
9 張勇實(shí);基于鏈接相似性分析的WEB結(jié)構(gòu)挖掘方法研究[D];哈爾濱工程大學(xué);2012年
10 宗校軍;中文網(wǎng)頁定題采集及分類研究[D];華中科技大學(xué);2006年
相關(guān)碩士學(xué)位論文 前10條
1 高文梁;改進(jìn)的基于歷史信息分析的網(wǎng)頁排序算法[D];大連理工大學(xué);2009年
2 劉輝;網(wǎng)頁信息過濾系統(tǒng)的研究與設(shè)計(jì)[D];蘇州大學(xué);2009年
3 趙胤;海量網(wǎng)頁搜集系統(tǒng)的設(shè)計(jì)[D];東北大學(xué) ;2009年
4 羅永蓮;突發(fā)事件語料噪聲排除與網(wǎng)頁去重方法研究[D];山西大學(xué);2005年
5 黃永光;基于網(wǎng)頁挖掘的搜索引擎若干技術(shù)的研究[D];哈爾濱工業(yè)大學(xué);2006年
6 張超群;基于網(wǎng)頁分塊技術(shù)的主題爬行[D];吉林大學(xué);2007年
7 張雅潔;網(wǎng)頁視覺基礎(chǔ)設(shè)計(jì)與應(yīng)用研究[D];東北師范大學(xué);2007年
8 黃文蓓;基于網(wǎng)頁分割和摘要的小屏幕設(shè)備網(wǎng)頁自適應(yīng)技術(shù)研究與實(shí)現(xiàn)[D];華東師范大學(xué);2008年
9 劉華暉;需求概念圖導(dǎo)引下的網(wǎng)頁檢索結(jié)果分析[D];上海交通大學(xué);2011年
10 程歡;網(wǎng)頁中動(dòng)態(tài)色彩及其情感可視化研究[D];哈爾濱工業(yè)大學(xué);2011年
,本文編號(hào):1740696
本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/1740696.html