天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

基于網(wǎng)頁(yè)文本結(jié)構(gòu)的網(wǎng)頁(yè)去重

發(fā)布時(shí)間:2018-05-30 13:46

  本文選題:層次指紋 + 文本結(jié)構(gòu); 參考:《計(jì)算機(jī)應(yīng)用》2007年11期


【摘要】:搜索引擎返回的重復(fù)網(wǎng)頁(yè)不但浪費(fèi)了存儲(chǔ)資源,而且加重了用戶(hù)瀏覽的負(fù)擔(dān)。針對(duì)網(wǎng)頁(yè)重復(fù)的特征和網(wǎng)頁(yè)文本自身的特點(diǎn),提出了一種動(dòng)態(tài)的網(wǎng)頁(yè)去重方法。該方法通過(guò)將網(wǎng)頁(yè)的正文表示成目錄結(jié)構(gòu)樹(shù)的形式,實(shí)現(xiàn)了一種動(dòng)態(tài)的特征提取算法和層次指紋的相似度計(jì)算算法。實(shí)驗(yàn)證明,該方法對(duì)全文重復(fù)和部分重復(fù)的網(wǎng)頁(yè)都能進(jìn)行準(zhǔn)確的檢測(cè)。
[Abstract]:Duplicate pages returned by search engines not only waste storage resources, but also increase the burden of browsing. According to the characteristics of web page repetition and the characteristics of web page text, a dynamic web page de-reduplication method is proposed. In this method, a dynamic feature extraction algorithm and a similarity calculation algorithm for hierarchical fingerprints are implemented by representing the text of a web page as a directory structure tree. Experimental results show that this method can detect both full text and partial duplicate web pages accurately.
【作者單位】: 山西大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院 山西大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院
【基金】:國(guó)家自然科學(xué)基金資助項(xiàng)目(60473139;60775041) 山西省自然科學(xué)基金資助項(xiàng)目(20051034)
【分類(lèi)號(hào)】:TP393.092;TP391.1

【共引文獻(xiàn)】

相關(guān)期刊論文 前4條

1 雷鳴,王建勇,趙江華,單松巍,陳葆玨;第三代搜索引擎與天網(wǎng)二期[J];北京大學(xué)學(xué)報(bào)(自然科學(xué)版);2001年05期

2 李曉明,朱家稷,閆宏飛;互聯(lián)網(wǎng)上主題信息的一種收集與處理模型及其應(yīng)用[J];計(jì)算機(jī)研究與發(fā)展;2003年12期

3 劉華;;網(wǎng)頁(yè)信息抽取及建庫(kù)系統(tǒng)C#實(shí)現(xiàn)[J];計(jì)算機(jī)工程;2006年16期

4 劉華;;超大規(guī)模分類(lèi)語(yǔ)料庫(kù)構(gòu)建[J];現(xiàn)代圖書(shū)情報(bào)技術(shù);2006年01期

相關(guān)博士學(xué)位論文 前3條

1 程軍;基于統(tǒng)計(jì)的文本分類(lèi)技術(shù)研究[D];中國(guó)科學(xué)院研究生院(文獻(xiàn)情報(bào)中心);2003年

2 劉華;基于關(guān)鍵短語(yǔ)的文本內(nèi)容標(biāo)引研究[D];北京語(yǔ)言大學(xué);2005年

3 詹川;反垃圾郵件技術(shù)的研究[D];電子科技大學(xué);2005年

相關(guān)碩士學(xué)位論文 前10條

1 吳平博;基于事件框架的主題相關(guān)文檔智能檢索的初步研究[D];清華大學(xué);2004年

2 邱功凱;基于移動(dòng)主體的網(wǎng)格服務(wù)資源搜索引擎關(guān)鍵技術(shù)研究[D];華中科技大學(xué);2004年

3 胡蓉;一種基于相關(guān)反饋和用戶(hù)建模的網(wǎng)絡(luò)搜索個(gè)性化服務(wù)[D];湘潭大學(xué);2005年

4 郭琛;數(shù)字圖書(shū)館的中文網(wǎng)頁(yè)文本分類(lèi)器研究[D];武漢理工大學(xué);2005年

5 姚永祥;基于XTM的政務(wù)知識(shí)導(dǎo)航系統(tǒng)的研究與實(shí)現(xiàn)[D];大連理工大學(xué);2006年

6 連浩;基于布爾模型的網(wǎng)頁(yè)查重算法研究[D];中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所);2006年

7 李軍輝;中文郵件語(yǔ)料庫(kù)建設(shè)[D];蘇州大學(xué);2006年

8 朱斐;一種富文本分類(lèi)方法的研究與實(shí)現(xiàn)[D];蘇州大學(xué);2006年

9 劉斌;數(shù)字圖書(shū)館中基于統(tǒng)計(jì)的自動(dòng)文本分類(lèi)方法研究[D];中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所);2002年

10 于歌;搜索引擎中自動(dòng)分類(lèi)關(guān)鍵技術(shù)研究[D];燕山大學(xué);2006年

【相似文獻(xiàn)】

相關(guān)會(huì)議論文 前8條

1 唐云廷;;基于TSBT(Text Structure Binary Tree)的文本結(jié)構(gòu)的自動(dòng)分析[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年

2 劉玲;周經(jīng)野;羅慧慧;;基于XML的文本規(guī)劃方法[A];2005年全國(guó)理論計(jì)算機(jī)科學(xué)學(xué)術(shù)年會(huì)論文集[C];2005年

3 楊艷;李巍;玄萍;;數(shù)字圖書(shū)館中基于Ontology的文本模型[A];黑龍江省計(jì)算機(jī)學(xué)會(huì)2009年學(xué)術(shù)交流年會(huì)論文集[C];2010年

4 李成城;;基于修辭結(jié)構(gòu)理論的自動(dòng)文摘研究[A];民族語(yǔ)言文字信息技術(shù)研究——第十一屆全國(guó)民族語(yǔ)言文字信息學(xué)術(shù)研討會(huì)論文集[C];2007年

5 王慧芳;張勇;邢春曉;張文珂;楊吉江;;文本摘要算法集成與實(shí)現(xiàn)[A];第二十五屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(二)[C];2008年

6 劉德喜;吳世漢;吳通;;基于隨機(jī)沖浪模型的XML文摘句子重排[A];第26屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(B輯)[C];2009年

7 鄧小妮;老松楊;胡曉峰;;超文本系統(tǒng)的功能結(jié)構(gòu)模型[A];第十一屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集[C];1993年

8 匡海波;陳小荷;;唐詩(shī)文本自動(dòng)分類(lèi)的算法研究[A];第五屆全國(guó)青年計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2010年

相關(guān)博士學(xué)位論文 前8條

1 楊卉;Web文本觀點(diǎn)挖掘及隱含情感傾向的研究[D];吉林大學(xué);2011年

2 蔣斌;文本載體信息隱藏及相關(guān)技術(shù)研究[D];解放軍信息工程大學(xué);2008年

3 孟憲軍;互聯(lián)網(wǎng)文本聚類(lèi)與檢索技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2009年

4 龍華;定義問(wèn)答檢索關(guān)鍵技術(shù)研究[D];重慶大學(xué);2010年

5 李博;基于LDA和LSA的醫(yī)學(xué)文本和影像分析模型及應(yīng)用研究[D];吉林大學(xué);2012年

6 翟延冬;基于WordNet的短文本語(yǔ)義網(wǎng)挖掘算法研究[D];吉林大學(xué);2012年

7 眭新光;文本信息隱藏及分析技術(shù)研究[D];解放軍信息工程大學(xué);2007年

8 劉娜;文本自動(dòng)摘要和信息抽取方法及其應(yīng)用研究[D];大連海事大學(xué);2012年

相關(guān)碩士學(xué)位論文 前10條

1 華秀麗;文本抄襲檢測(cè)方法研究[D];蘇州大學(xué);2012年

2 張文明;文本案例知識(shí)庫(kù)構(gòu)建的關(guān)鍵技術(shù)研究[D];西北大學(xué);2010年

3 孔勝;文本資源的知識(shí)抽取研究[D];大連理工大學(xué);2010年

4 杜爾斌;基于改進(jìn)KNN的文本分類(lèi)算法的設(shè)計(jì)與實(shí)現(xiàn)[D];上海交通大學(xué);2010年

5 楊茂;基于句子相似度的文本比對(duì)算法研究[D];電子科技大學(xué);2010年

6 孫昌年;基于主題模型的文本相似度計(jì)算研究與實(shí)現(xiàn)[D];安徽大學(xué);2012年

7 姜琪;從文本圖解到非文本圖解的動(dòng)畫(huà)視覺(jué)敘事研究[D];華中師范大學(xué);2012年

8 石安磊;基于文本相似度評(píng)分的中醫(yī)案例分析系統(tǒng)研究與實(shí)現(xiàn)[D];西北大學(xué);2011年

9 曹菲菲;基于內(nèi)容分析的專(zhuān)利挖掘技術(shù)研究[D];東北大學(xué);2008年

10 張大虎;基于主題的文本數(shù)據(jù)采集系統(tǒng)的研究與實(shí)現(xiàn)[D];東北大學(xué);2010年

,

本文編號(hào):1955512

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/1955512.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)82acb***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com