天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

任意網(wǎng)頁(yè)的主題信息抽取研究

發(fā)布時(shí)間:2018-03-08 23:03

  本文選題:任意網(wǎng)頁(yè) 切入點(diǎn):主題信息 出處:《中文信息學(xué)報(bào)》2017年05期  論文類(lèi)型:期刊論文


【摘要】:目前大部分的網(wǎng)頁(yè)信息抽取方法都局限于某一類(lèi)網(wǎng)頁(yè)的提取,并沒(méi)有進(jìn)一步深入到適用于任意網(wǎng)頁(yè)的抽取。針對(duì)這一問(wèn)題,該文提出了一種基于融合機(jī)制的任意網(wǎng)頁(yè)主題信息抽取框架,特點(diǎn)是通過(guò)"模板庫(kù)匹配—基于模板抽取—網(wǎng)頁(yè)分類(lèi)—全自動(dòng)抽取"四個(gè)步驟實(shí)現(xiàn)對(duì)模板無(wú)關(guān)的全自動(dòng)抽取算法和基于模板的抽取算法的融合。實(shí)驗(yàn)顯示,這種融合機(jī)制能促進(jìn)抽取準(zhǔn)確率的有效提高,從而最終建立起一個(gè)適用于任意網(wǎng)頁(yè)的、具有實(shí)用價(jià)值的信息抽取框架。
[Abstract]:At present, most of the methods of web page information extraction are limited to a certain type of web page extraction, and do not go further into the extraction of any web page. In this paper, a framework of arbitrary web page topic information extraction based on fusion mechanism is proposed. The feature is that the integration of template independent automatic extraction algorithm and template based extraction algorithm is realized by "template base matching-template based extraction-web page classification-automatic extraction". This fusion mechanism can effectively improve the accuracy of extraction, and finally establish a practical information extraction framework suitable for any web page.
【作者單位】: 中國(guó)科學(xué)院計(jì)算技術(shù)研究所中國(guó)科學(xué)院網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)室;中國(guó)科學(xué)院大學(xué);
【基金】:國(guó)家重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃(“973”計(jì)劃)(2014CB340401,2013CB329606) 科技部重點(diǎn)研發(fā)計(jì)劃(2016QY02D0405) 國(guó)家自然科學(xué)基金(61232010,61472401,61425016,61203298) 中國(guó)科學(xué)院青年創(chuàng)新促進(jìn)會(huì)優(yōu)秀會(huì)員項(xiàng)目(20144310,2016102)
【分類(lèi)號(hào)】:TP391.1;TP393.092

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 巫滿(mǎn)秀;;淺談網(wǎng)頁(yè)信息的保存技巧[J];福建電腦;2007年07期

2 呂英杰;葉強(qiáng);李一軍;;模糊綜合評(píng)判理論在網(wǎng)頁(yè)自動(dòng)分類(lèi)中的應(yīng)用[J];計(jì)算機(jī)工程;2007年15期

3 張俊英;胡俠;卜佳俊;;網(wǎng)頁(yè)文本信息自動(dòng)提取技術(shù)綜述[J];計(jì)算機(jī)應(yīng)用研究;2009年08期

4 宋明秋;張瑞雪;吳新濤;李文立;;網(wǎng)頁(yè)正文信息抽取新方法[J];大連理工大學(xué)學(xué)報(bào);2009年04期

5 張霞亮;陳家駿;;基于邏輯行和最大接納距離的網(wǎng)頁(yè)正文抽取[J];計(jì)算機(jī)工程與應(yīng)用;2009年25期

6 周序生;李爽;;網(wǎng)頁(yè)自動(dòng)分類(lèi)的建模與仿真研究[J];計(jì)算機(jī)仿真;2011年10期

7 張小娣;宋余慶;;基于網(wǎng)頁(yè)正文邏輯段落和長(zhǎng)句提取的網(wǎng)頁(yè)去重算法[J];圖書(shū)情報(bào)研究;2012年02期

8 周楊;;基于關(guān)鍵長(zhǎng)句及正文長(zhǎng)度預(yù)分類(lèi)的網(wǎng)頁(yè)去重算法研究[J];軟件導(dǎo)刊;2012年10期

9 黃玲;陳龍;;基于網(wǎng)頁(yè)分塊的正文信息提取方法[J];計(jì)算機(jī)應(yīng)用;2008年S2期

10 劉娟;趙曉楠;;網(wǎng)頁(yè)主題相關(guān)性判別的聚焦爬蟲(chóng)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)與現(xiàn)代化;2012年10期

相關(guān)會(huì)議論文 前8條

1 唐超;劉辰;楊正球;;使用多層迭代分析和分類(lèi)網(wǎng)頁(yè)文檔的方法[A];2007北京地區(qū)高校研究生學(xué)術(shù)交流會(huì)通信與信息技術(shù)會(huì)議論文集(上冊(cè))[C];2008年

2 羅陽(yáng);季鐸;張桂平;王瑩瑩;;面向單一網(wǎng)頁(yè)的雙語(yǔ)資源挖掘方法[A];第六屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年

3 劉菁菁;林鴻飛;;基于結(jié)構(gòu)和鏈接擴(kuò)展的中文網(wǎng)頁(yè)分類(lèi)研究[A];2007年全國(guó)開(kāi)放式分布與并行計(jì)算機(jī)學(xué)術(shù)會(huì)議論文集(上冊(cè))[C];2007年

4 張志強(qiáng);梁婷婷;謝曉芹;;一種基于用戶(hù)標(biāo)記的搜索結(jié)果排序算法[A];第26屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(B輯)[C];2009年

5 朱春江;陸宇e,

本文編號(hào):1585910


資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/1585910.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)5b468***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com