一種改進的樹路徑模型在網(wǎng)頁聚類中的研究
本文選題:信息提取 切入點:網(wǎng)頁結(jié)構(gòu) 出處:《計算機科學》2015年05期
【摘要】:相似度計算是文本挖掘的基礎(chǔ),也是信息提取過程的關(guān)鍵步驟。對于結(jié)構(gòu)復雜的網(wǎng)頁,當前基于傳統(tǒng)樹路徑模型的相似度計算方法在準確性上尚不完善。傳統(tǒng)樹路徑模型未考慮路徑出現(xiàn)的先后順序,并且比較路徑相似度時用的是完全匹配,難以在不完全匹配時更精確地描述路徑之間的相似度。因此,從網(wǎng)頁結(jié)構(gòu)相似度入手,提出了一種改進的樹路徑模型。該模型充分考慮了兄弟節(jié)點之間的關(guān)系、路徑位置以及路徑權(quán)重,彌補了傳統(tǒng)樹路徑模型無法表達文檔結(jié)構(gòu)和層次信息的缺陷。實驗結(jié)果表明,該模型提高了識別網(wǎng)頁結(jié)構(gòu)相似性的能力,既能對結(jié)構(gòu)差別較大的網(wǎng)頁進行良好的區(qū)分,又能較好地反映來自同一模板的網(wǎng)頁之間的差異性,同時在網(wǎng)頁聚類中具有更優(yōu)的效果。
[Abstract]:Similarity calculation is the foundation of text mining and the key step of information extraction.For the web pages with complex structure, the accuracy of the traditional tree path model is not perfect.The traditional tree path model does not consider the sequence of path appearance, and it is difficult to describe the similarity between paths more accurately when comparing path similarity with perfect matching.Therefore, an improved tree path model is proposed based on the similarity of web structure.This model fully considers the relationship between brother nodes, path position and path weight, and makes up for the defect that traditional tree path model can not express document structure and hierarchical information.The experimental results show that the model can improve the ability of recognizing the structural similarity of web pages, and can not only distinguish the pages with large structural differences, but also reflect the differences between pages from the same template.At the same time, it has better effect in web clustering.
【作者單位】: 河海大學計算機與信息學院;南京航空航天大學計算機科學與技術(shù)學院;
【基金】:江蘇水利科技項目:“智慧河流”研究及其在六合滁河管理中的應用(2013025) 河海大學中央高;究蒲袠I(yè)務(wù)費項目(2009B21614)資助
【分類號】:TP391.1;TP393.092
【參考文獻】
相關(guān)期刊論文 前1條
1 王志琪;王永成;;HTML文件的文本信息預處理技術(shù)[J];計算機工程;2006年05期
【共引文獻】
相關(guān)期刊論文 前10條
1 程仁貴;;帶反向詞頻的中英文詞典的設(shè)計[J];重慶工學院學報(自然科學版);2008年11期
2 宋明秋;張瑞雪;吳新濤;李文立;;網(wǎng)頁正文信息抽取新方法[J];大連理工大學學報;2009年04期
3 孫娜;吳蘭蘭;;一種節(jié)點加權(quán)的相似重復XML數(shù)據(jù)檢測算法[J];計算機光盤軟件與應用;2014年02期
4 陳睿嘉;康志忠;張衛(wèi)濤;;基于網(wǎng)絡(luò)爬蟲的導航深度服務(wù)信息自動采集[J];測繪工程;2015年01期
5 張瑞雪;宋明秋;公衍磊;;逆序解析DOM樹及網(wǎng)頁正文信息提取[J];計算機科學;2011年04期
6 方元康;胡學鋼;夏啟壽;朱勇;;改進的Web日志數(shù)據(jù)預處理技術(shù)[J];計算機工程;2009年10期
7 王舒;朱敏;張明;牛顥;趙瑜;;一種基于特征符號的網(wǎng)頁主題信息抽取方法[J];計算機應用研究;2009年12期
8 錢程;陽小蘭;;HTML到XML轉(zhuǎn)換研究[J];計算機與現(xiàn)代化;2011年08期
9 黃武冠;朱明;尹文科;;基于DOM樹和視覺特征的網(wǎng)頁信息自動抽取[J];計算機工程;2013年10期
10 王繼奎;李少波;;數(shù)據(jù)源敏感的多源XML數(shù)據(jù)相似度量方法[J];華南理工大學學報(自然科學版);2014年07期
相關(guān)會議論文 前1條
1 王春元;張韜;;一種獲取網(wǎng)頁主要中文信息的方法[A];全國計算機安全學術(shù)交流會論文集(第二十四卷)[C];2009年
相關(guān)博士學位論文 前5條
1 楊瑞龍;基于短語特征的Web文檔聚類方法研究[D];重慶大學;2010年
2 王春元;公共網(wǎng)絡(luò)信息系統(tǒng)安全管理的研究[D];合肥工業(yè)大學;2009年
3 劉顯敏;XML數(shù)據(jù)實體同一性相關(guān)技術(shù)的研究[D];哈爾濱工業(yè)大學;2013年
4 宋鑫瑩;網(wǎng)絡(luò)信息自動化高效抽取技術(shù)研究[D];哈爾濱工業(yè)大學;2013年
5 高直;圖像宏微觀特征偏序結(jié)構(gòu)一體化表示與相似性度量研究[D];燕山大學;2014年
相關(guān)碩士學位論文 前10條
1 張瑞雪;基于DOM樹的網(wǎng)頁相似度研究與應用[D];大連理工大學;2011年
2 劉敏;嵌入式瀏覽器網(wǎng)頁排版技術(shù)研究與實現(xiàn)[D];華中科技大學;2011年
3 朱慧;基于輿情分析研判的突發(fā)事件預警平臺的設(shè)計與實現(xiàn)[D];電子科技大學;2011年
4 古沐松;基于SOA的鐵路信息化研究[D];四川師范大學;2007年
5 吳新濤;基于向量空間模型的網(wǎng)頁信息過濾方法研究[D];大連理工大學;2008年
6 王磊;公安網(wǎng)絡(luò)輿情分析系統(tǒng)的研究[D];北京交通大學;2008年
7 艾建生;基于Web環(huán)境的遠程實驗技術(shù)研究[D];重慶大學;2008年
8 楊新華;Windows CE系統(tǒng)下嵌入式WAP/Web瀏覽器的研究與實現(xiàn)[D];重慶大學;2009年
9 王立建;中文web文本過濾技術(shù)研究[D];中北大學;2010年
10 趙立磊;基于網(wǎng)頁去重的垂直搜索引擎設(shè)計與實現(xiàn)[D];大連理工大學;2012年
【相似文獻】
相關(guān)期刊論文 前10條
1 梁恩志;陸小龍;趙世平;劉曉宇;曹志華;王蕾;;二維桁架路徑模型的自動生成算法[J];西安交通大學學報;2012年05期
2 牟德一;劉金鳳;;改進的蟻群算法在飛行路徑模型中的應用[J];計算機工程與科學;2012年06期
3 ;[J];;年期
4 ;[J];;年期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
相關(guān)會議論文 前3條
1 崔嘯;蔡安輝;董紀昌;;房價在不同時期貨幣政策傳導機制中的作用——基于熱最優(yōu)路徑模型研究[A];第十三屆中國管理科學學術(shù)年會論文集[C];2011年
2 樊霞;俞舟;;產(chǎn)學研協(xié)同創(chuàng)新有助于大學創(chuàng)新能力成長嗎?——基于偏最小二乘路徑模型的實證檢驗[A];中國系統(tǒng)工程學會第十八屆學術(shù)年會論文集——A03系統(tǒng)科學理論研究創(chuàng)新[C];2014年
3 黃德春;高敏;劉炳勝;;中國區(qū)域創(chuàng)新能力評價及變化趨勢系統(tǒng)分析——基于PLS路徑模型的實證研究[A];第六屆(2011)中國管理學年會——技術(shù)與創(chuàng)新管理分會場論文集[C];2011年
相關(guān)碩士學位論文 前2條
1 石晶;集體行動雙重路徑模型的實驗研究[D];華東師范大學;2012年
2 袁先亮;大規(guī)模網(wǎng)點物流路徑規(guī)劃系統(tǒng)的研究與應用[D];武漢理工大學;2014年
,本文編號:1728454
本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/1728454.html