天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于多特征融合的網(wǎng)頁正文信息抽取

發(fā)布時間:2019-01-02 10:50
【摘要】:當今主流網(wǎng)頁分為單正文體網(wǎng)頁和多正文體網(wǎng)頁。這些網(wǎng)頁的正文信息都具有多個正文特征。想要準確定位正文信息所在位置,可以從其所具有的多個特征和網(wǎng)頁設計者的設計習慣著手。鑒于此,融合這些特征提出一種基于多特征融合的網(wǎng)頁正文信息抽取方法。實驗結果表明,該方法對單正文體網(wǎng)頁和多正文體網(wǎng)頁的正文抽取具有較高的準確率和通用性,很好地適應了風格多樣的網(wǎng)頁。
[Abstract]:Nowadays, the mainstream web pages are divided into single positive style pages and multi-positive stylistic pages. The text information of these pages has multiple text features. In order to locate the location of text information accurately, we can start with its features and the design habits of web designers. In view of this, this paper proposes a method of text information extraction based on multi-feature fusion. The experimental results show that this method has high accuracy and generality for the text extraction of single and multi-style web pages, and adapts well to various web pages of different styles.
【作者單位】: 西南交通大學信息科學與技術學院 思維與智慧研究所;
【基金】:國家自然科學基金項目(61152001,61170111) 中國科學院自動化研究所復雜系統(tǒng)管理與控制重點實驗室開放課題(20110102)
【分類號】:TP393.092

【參考文獻】

相關期刊論文 前6條

1 冀高峰;湯庸;道煒;吳桂賓;黃帆;王鵬;;基于XML的自動學習Web信息抽取[J];計算機科學;2008年03期

2 劉輝;陳靜玉;徐學洲;;基于模板流程配置的Web信息抽取[J];計算機工程;2008年20期

3 鄭長松;傅彥;佘莉;;基于模板的Web信息自動提取方法[J];計算機應用研究;2009年02期

4 孫承杰,關毅;基于統(tǒng)計的網(wǎng)頁正文信息抽取方法的研究[J];中文信息學報;2004年05期

5 周佳穎;朱珍民;高曉芳;;基于統(tǒng)計與正文特征的中文網(wǎng)頁正文抽取研究[J];中文信息學報;2009年05期

6 劉亞東;彭艦;張達平;;基于智能的網(wǎng)頁信息提取系統(tǒng)的研究與設計[J];四川大學學報(自然科學版);2009年04期

【共引文獻】

相關期刊論文 前10條

1 高博;朱東華;韓士雄;;一種智能化的信息采集系統(tǒng)的研究與實現(xiàn)[J];兵工學報;2009年S1期

2 王楠;;一種實現(xiàn)Web數(shù)據(jù)到XML文檔的轉換算法[J];大連海事大學學報;2010年03期

3 宋明秋;張瑞雪;吳新濤;李文立;;網(wǎng)頁正文信息抽取新方法[J];大連理工大學學報;2009年04期

4 趙文;唐建雄;高慶鋒;;基于統(tǒng)計的中文網(wǎng)頁正文抽取的研究[J];電腦知識與技術;2008年01期

5 王強;戰(zhàn)忠麗;張鳳君;;基于語義分組向量空間模型的Web新聞檢索算法[J];電子科技;2011年04期

6 胡瑜;王立志;;基于HTML結構特征的網(wǎng)頁信息提取[J];遼寧石油化工大學學報;2009年03期

7 任玉;樊勇;鄭家恒;;基于分塊的網(wǎng)頁主題文本抽取[J];廣西師范大學學報(自然科學版);2009年01期

8 劉豐;韓輝;周蕾;齊峻瑤;徐寶梁;;網(wǎng)絡信息技術在傳染病輿情監(jiān)測中的應用[J];中國國境衛(wèi)生檢疫雜志;2012年04期

9 李文;鄭邦習;鄧武;;基于XML和DOM技術的Web信息抽取模型[J];大連交通大學學報;2013年03期

10 向程冠;熊世桓;;基于CSS視覺分塊的Web碎片信息抽取算法[J];計算機光盤軟件與應用;2013年16期

相關會議論文 前4條

1 胡飛;;一種Web頁面的主題區(qū)域搜索方法[A];2008年計算機應用技術交流會論文集[C];2008年

2 王春元;張韜;;一種獲取網(wǎng)頁主要中文信息的方法[A];全國計算機安全學術交流會論文集(第二十四卷)[C];2009年

3 時達明;林鴻飛;楊志豪;;基于網(wǎng)頁框架和規(guī)則的網(wǎng)頁噪音去除方法[A];第三屆學生計算語言學研討會論文集[C];2006年

4 蒲宇達;關毅;王強;;基于數(shù)據(jù)挖掘思想的網(wǎng)頁正文抽取方法的研究[A];第三屆學生計算語言學研討會論文集[C];2006年

相關博士學位論文 前5條

1 王肅;基于多Agent的突發(fā)事件信息智能監(jiān)測系統(tǒng)研究[D];北京郵電大學;2011年

2 王春元;公共網(wǎng)絡信息系統(tǒng)安全管理的研究[D];合肥工業(yè)大學;2009年

3 王桂紅;農產品市場價格web信息分析方法研究[D];沈陽農業(yè)大學;2013年

4 宋鑫瑩;網(wǎng)絡信息自動化高效抽取技術研究[D];哈爾濱工業(yè)大學;2013年

5 吳共慶;基于標簽路徑特征的Web新聞內容抽取研究[D];合肥工業(yè)大學;2012年

相關碩士學位論文 前10條

1 王樂超;Web環(huán)境下文獻信息的提取與匹配研究[D];大連理工大學;2010年

2 孟桂國;基于維基百科的雙語語料挖掘技術研究[D];蘇州大學;2010年

3 孟祥燕;問答對自動獲取的研究[D];昆明理工大學;2008年

4 呂楠;話題追蹤與演化分析技術研究[D];解放軍信息工程大學;2009年

5 許世明;中文網(wǎng)頁分類技術研究及預分類算法實現(xiàn)[D];西安電子科技大學;2009年

6 陳晶;基于網(wǎng)頁的信息抽取的研究[D];西安工業(yè)大學;2011年

7 王偉;搜索引擎智能化技術中若干關鍵問題的研究與實現(xiàn)[D];河北科技大學;2011年

8 李亞洲;文本分類語料庫自動構建系統(tǒng)的研究與改進[D];武漢理工大學;2011年

9 高永勝;基于樹形結構的網(wǎng)頁數(shù)據(jù)抽取模式研究及應用[D];大連理工大學;2011年

10 張瑞雪;基于DOM樹的網(wǎng)頁相似度研究與應用[D];大連理工大學;2011年

【二級參考文獻】

相關期刊論文 前10條

1 張紹華,徐林昊,楊文柱,薛文玲,李天柱;基于樣本實例的Web信息抽取[J];河北大學學報(自然科學版);2001年04期

2 張茂元;張金隆;盧正鼎;鄒春燕;;基于特征相關學習的網(wǎng)頁信息提取方法[J];華中科技大學學報(自然科學版);2007年07期

3 殷賢亮;李猛;;基于分塊的網(wǎng)頁主題信息自動提取算法[J];華中科技大學學報(自然科學版);2007年10期

4 高軍 ,王騰蛟 ,楊冬青 ,唐世渭;基于Ontology的Web內容二階段半自動提取方法[J];計算機學報;2004年03期

5 于滿泉,陳鐵睿,許洪波;基于分塊的網(wǎng)頁信息解析器的研究與設計[J];計算機應用;2005年04期

6 宋睿華,馬少平,陳剛,李景陽;一種提高中文搜索引擎檢索質量的HTML解析方法[J];中文信息學報;2003年04期

7 孫承杰,關毅;基于統(tǒng)計的網(wǎng)頁正文信息抽取方法的研究[J];中文信息學報;2004年05期

8 梅雪;程學旗;郭巖;張剛;丁國棟;;一種全自動生成網(wǎng)頁信息抽取Wrapper的方法[J];中文信息學報;2008年01期

9 歐健文,董守斌,蔡斌;模板化網(wǎng)頁主題信息的提取方法[J];清華大學學報(自然科學版);2005年S1期

10 楊少華;林海略;韓燕波;;針對模板生成網(wǎng)頁的一種數(shù)據(jù)自動抽取方法(英文)[J];軟件學報;2008年02期

相關會議論文 前1條

1 蒲宇達;關毅;王強;;基于數(shù)據(jù)挖掘思想的網(wǎng)頁正文抽取方法的研究[A];第三屆學生計算語言學研討會論文集[C];2006年

【相似文獻】

相關期刊論文 前10條

1 吳鵬飛;馬鳳娟;;基于Boost.Regex的網(wǎng)頁信息抽取[J];電腦編程技巧與維護;2009年15期

2 徐明;;輕松破解網(wǎng)頁右鍵屏蔽六招[J];電腦校園;2002年12期

3 杜翠茹;;淺析網(wǎng)頁布局方法在教學中的優(yōu)化[J];大眾科技;2010年05期

4 孟濤,閆宏飛,王繼民;Web網(wǎng)頁信息變化的時間局部性規(guī)律及其驗證[J];情報學報;2005年04期

5 ;和朋友看同一個網(wǎng)頁的幸福生活[J];計算機與網(wǎng)絡;2005年18期

6 張曉彥;張曉明;;一種基于表格屬性的網(wǎng)頁信息隱藏算法[J];北京石油化工學院學報;2009年01期

7 郭利偉;王家兵;;Web信息自動標引方法比較[J];內蒙古科技與經(jīng)濟;2009年07期

8 胡少榮;孟嗣儀;劉云;張彥超;丁飛;;網(wǎng)頁信息自動抽取技術的研究[J];鐵路計算機應用;2010年09期

9 張莉,曾致遠;Windows下網(wǎng)頁信息實時監(jiān)聽程序的設計與實現(xiàn)[J];微計算機信息;2005年03期

10 于滿泉,陳鐵睿,許洪波;基于分塊的網(wǎng)頁信息解析器的研究與設計[J];計算機應用;2005年04期

相關會議論文 前10條

1 韓近強;趙靜;楊冬青;唐世渭;姚小波;;基于領域知識的網(wǎng)頁篩選系統(tǒng)[A];第十九屆全國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2002年

2 王曉峰;劉惟一;;從用戶需求到網(wǎng)頁集團的模糊變換[A];第二十屆全國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2003年

3 吳倩;楊逍;張兆心;;基于視覺特征的網(wǎng)頁信息提取[A];第六屆全國信息檢索學術會議論文集[C];2010年

4 羅陽;季鐸;張桂平;王瑩瑩;;面向單一網(wǎng)頁的雙語資源挖掘方法[A];第六屆全國信息檢索學術會議論文集[C];2010年

5 張貫虹;烏達巴拉;鞏政;;基于向量空間模型的網(wǎng)頁文本句子對齊方法研究[A];第十一屆全國人機語音通訊學術會議論文集(一)[C];2011年

6 趙玉芳;張一鳴;;基于網(wǎng)頁信息的印象形成的初步研究[A];第十屆全國心理學學術大會論文摘要集[C];2005年

7 張陽;李戰(zhàn)懷;近藤廣幸;;WEB PAGE的自動分類[A];第十六屆全國數(shù)據(jù)庫學術會議論文集[C];1999年

8 甘衛(wèi)東;郭宏騫;曾令奇;;泌尿外科病人使用因特網(wǎng)情況及相關專業(yè)網(wǎng)頁質量調查[A];第十五屆全國泌尿外科學術會議論文集[C];2008年

9 何平;李錦;;基于Web挖掘技術的用戶模糊偏好分析[A];第二十二屆中國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2005年

10 黃華軍;王保衛(wèi);孫星明;;基于CSS類選擇符重復引入的網(wǎng)頁信息隱藏算法[A];第八屆全國信息隱藏與多媒體安全學術大會湖南省計算機學會第十一屆學術年會論文集[C];2009年

相關重要報紙文章 前10條

1 壯壯;批量保存網(wǎng)頁信息[N];電腦報;2004年

2 東方早報記者 李偉;要名還是要利,這是個問題[N];東方早報;2011年

3 金山軟件副總裁 楊桓;著力“三大系統(tǒng)” 構筑網(wǎng)絡安全屏障[N];中國電子報;2009年

4 郭京霞;楓葉之都狀告百度惡意排名一審敗訴[N];中國知識產權報;2007年

5 路人甲;請個專家來貼圖[N];電腦報;2005年

6 夏凌;搜索引擎排名糾紛百度勝出[N];中華工商時報;2007年

7 錢鵬;網(wǎng)盡Web頁中的好東東[N];電腦報;2004年

8 郭京霞;百度勝訴搜索引擎排名糾紛案[N];中國企業(yè)報;2007年

9 任一鳴;垂直搜索:抓住細分需求[N];計算機世界;2007年

10 章森 王偉;搜索引擎的工作機制[N];計算機世界;2006年

相關博士學位論文 前10條

1 陳潔;基于概念融合的網(wǎng)頁篩選技術研究[D];北京郵電大學;2013年

2 焦斌星;用于搜索的網(wǎng)頁可視化摘要技術研究[D];中國科學技術大學;2012年

3 孟憲軍;互聯(lián)網(wǎng)文本聚類與檢索技術研究[D];哈爾濱工業(yè)大學;2009年

4 張長利;面向特定領域的互聯(lián)網(wǎng)輿情分析技術研究[D];吉林大學;2011年

5 黃河;農業(yè)復雜自適應搜索模型研究及實現(xiàn)[D];中國科學技術大學;2010年

6 王昤璞;基于用戶體驗的互聯(lián)網(wǎng)搜索引擎醫(yī)學信息檢索可用性評估研究[D];吉林大學;2010年

7 劉守群;海量網(wǎng)絡視頻快速檢索關鍵技術研究[D];中國科學技術大學;2010年

8 段瑞雪;基于依存關系的用戶意圖的研究[D];北京郵電大學;2011年

9 張勇實;基于鏈接相似性分析的WEB結構挖掘方法研究[D];哈爾濱工程大學;2012年

10 曹魯慧;Web個人信息集成問題研究[D];山東大學;2012年

相關碩士學位論文 前10條

1 于洪波;中文網(wǎng)頁自動采集與分類系統(tǒng)設計與實現(xiàn)[D];北京郵電大學;2010年

2 鐘鴻鵬;基于時態(tài)信息的網(wǎng)頁排序系統(tǒng)的研究與實現(xiàn)[D];華南理工大學;2010年

3 張航;主題爬蟲的實現(xiàn)及其關鍵技術研究[D];武漢理工大學;2010年

4 馮明遠;深度網(wǎng)絡信息爬取關鍵技術研究與實現(xiàn)[D];浙江大學;2010年

5 鄧科;智能搜索中的中文網(wǎng)頁分類研究[D];蘭州理工大學;2011年

6 黨春輝;網(wǎng)頁消重和聚類算法在高校搜索引擎中的研究與應用[D];東華大學;2010年

7 馬偉瑜;基于改進的PageRank的網(wǎng)頁信息可信度評估方法研究[D];河北大學;2011年

8 任斌;基于本體的主動學習主題爬行的研究與實現(xiàn)[D];吉林大學;2010年

9 任蘭鵬;基于代表樣本的中文網(wǎng)頁分類研究[D];山東大學;2010年

10 李霞;文本過濾防火墻技術研究[D];北方工業(yè)大學;2011年

,

本文編號:2398399

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/2398399.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶1b5c2***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com