近似鏡像檢測算法在文本消重中的應(yīng)用研究
[Abstract]:Text elimination is an important technology in search engine. It can remove the approximate mirror pages from the collected pages, and then build index to provide services, so that users do not have a lot of duplicate pages when querying. Based on the analysis and research of approximate mirroring text detection algorithm, an approximate image algorithm based on MD5 fingerprint is proposed to eliminate the reprocessing of text document. The algorithm is tested in the index module of learning support platform based on P2PKM. The test results show that the application of this algorithm can reduce the duplicate document in the knowledge package.
【作者單位】: 廣西大學(xué)計算機(jī)與電子信息學(xué)院;湖南師范大學(xué)計算機(jī)教學(xué)部;
【基金】:湖南省自然科學(xué)基金項目(06JJ50105)
【分類號】:TP391.3
【參考文獻(xiàn)】
相關(guān)期刊論文 前5條
1 王建勇,謝正茂,雷鳴,李曉明;近似鏡像網(wǎng)頁檢測算法的研究與評價[J];電子學(xué)報;2000年S1期
2 梁京章;李幼紅;潘瑩;葉云;;P2P資料搜索引擎的研究和設(shè)計[J];廣西大學(xué)學(xué)報(自然科學(xué)版);2006年04期
3 趙汀,孟祥武;基于LUCENEAPI的中文全文數(shù)據(jù)庫設(shè)計與實現(xiàn)[J];計算機(jī)工程與應(yīng)用;2003年20期
4 張明輝,王成耀,宋威;一種基于段落的分段簽名近似鏡像新算法[J];情報雜志;2005年01期
5 葉云;梁京章;;基于Lucene的搜索引擎在遠(yuǎn)程教育平臺中的應(yīng)用[J];現(xiàn)代計算機(jī);2007年04期
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 雷鳴,王建勇,趙江華,單松巍,陳葆玨;第三代搜索引擎與天網(wǎng)二期[J];北京大學(xué)學(xué)報(自然科學(xué)版);2001年05期
2 樊勇;鄭家恒;;基于主題的網(wǎng)頁去重[J];電腦開發(fā)與應(yīng)用;2008年04期
3 溫艷鴻;;基于lucene的文件搜索引擎的設(shè)計與擴(kuò)展[J];福建電腦;2007年08期
4 韓正服;楊喜權(quán);張一鳴;叢榮華;;基于特征碼的大規(guī)模XML文檔去重研究[J];中國管理信息化(綜合版);2006年07期
5 郭艾俠;張連寬;吳小紅;潘春華;;基于P2P網(wǎng)絡(luò)中信譽機(jī)制的安全電子交易協(xié)議[J];廣西大學(xué)學(xué)報(自然科學(xué)版);2008年04期
6 王正;陸余良;劉金紅;施凡;;基于Lucene的互聯(lián)網(wǎng)文獻(xiàn)信息檢索系統(tǒng)的研究[J];安徽大學(xué)學(xué)報(自然科學(xué)版);2009年05期
7 劉磊安;符志強(qiáng);;基于Lucene.net網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[J];電腦知識與技術(shù);2010年08期
8 李曉明,朱家稷,閆宏飛;互聯(lián)網(wǎng)上主題信息的一種收集與處理模型及其應(yīng)用[J];計算機(jī)研究與發(fā)展;2003年12期
9 張駿;郭慧;;基于文件指紋的Web文本挖掘[J];計算機(jī)與信息技術(shù);2009年05期
10 宋佳;諸云強(qiáng);劉潤達(dá);;一種基于Lucene改進(jìn)的全文檢索工具包[J];計算機(jī)工程與應(yīng)用;2008年04期
相關(guān)博士學(xué)位論文 前3條
1 李衛(wèi);領(lǐng)域知識的獲取[D];北京郵電大學(xué);2008年
2 詹川;反垃圾郵件技術(shù)的研究[D];電子科技大學(xué);2005年
3 程軍;基于統(tǒng)計的文本分類技術(shù)研究[D];中國科學(xué)院研究生院(文獻(xiàn)情報中心);2003年
相關(guān)碩士學(xué)位論文 前10條
1 譚鳴;基于Lucene技術(shù)的垂直搜索引擎的研究與實現(xiàn)[D];江西理工大學(xué);2009年
2 楊永毅;基于Lucene的二手汽車交易信息垂直搜索引擎的研究與實現(xiàn)[D];重慶大學(xué);2009年
3 楊娜;基于lucene的輕量級全文檢索系統(tǒng)模型研究[D];鄭州大學(xué);2009年
4 辛聰;基于特征碼的大規(guī)模中文網(wǎng)頁并行去重方法[D];哈爾濱工業(yè)大學(xué);2008年
5 馬志強(qiáng);校園網(wǎng)搜索引擎核心技術(shù)—中文自動分詞[D];北京機(jī)械工業(yè)學(xué)院;2006年
6 翁云鶴;基于自然語言處理的網(wǎng)頁去重關(guān)鍵技術(shù)研究[D];北京郵電大學(xué);2009年
7 王巖;基于本體的數(shù)字圖書館的檢索方法的研究[D];哈爾濱工程大學(xué);2008年
8 劉峰;垂直搜索中的數(shù)據(jù)清洗和排序算法研究[D];中國科學(xué)技術(shù)大學(xué);2009年
9 劉運佳;基于Lucene和Heririx構(gòu)建搜索引擎的研究和示例實現(xiàn)[D];電子科技大學(xué);2008年
10 魏麗霞;基于文本結(jié)構(gòu)的近似鏡像網(wǎng)頁去重[D];山西大學(xué);2008年
【二級參考文獻(xiàn)】
相關(guān)期刊論文 前4條
1 王建勇,謝正茂,雷鳴,李曉明;近似鏡像網(wǎng)頁檢測算法的研究與評價[J];電子學(xué)報;2000年S1期
2 郎小偉;王申康;;基于Lucene的全文檢索系統(tǒng)研究與開發(fā)[J];計算機(jī)工程;2006年04期
3 孫西全;馬瑞芳;李燕靈;;基于Lucene的信息檢索的研究與應(yīng)用[J];情報理論與實踐;2006年01期
4 向暉;郭一平;王亮;;基于Lucene的中文字典分詞模塊的設(shè)計與實現(xiàn)[J];現(xiàn)代圖書情報技術(shù);2006年08期
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 王建勇,謝正茂,雷鳴,李曉明;近似鏡像網(wǎng)頁檢測算法的研究與評價[J];電子學(xué)報;2000年S1期
2 張明輝,王成耀,宋威;一種基于段落的分段簽名近似鏡像新算法[J];情報雜志;2005年01期
3 胡燕;也談消重[J];中國檔案;1997年03期
4 楊文忠;彭曙蓉;;簡報近似網(wǎng)頁的一種檢測算法[J];微計算機(jī)應(yīng)用;2006年01期
5 李傳目;WEB上用戶口令的安全傳輸[J];集美大學(xué)學(xué)報(自然科學(xué)版);2002年04期
6 高勁松,,孟令奎;基于神經(jīng)網(wǎng)絡(luò)的關(guān)系消重和排序運算[J];華中師范大學(xué)學(xué)報(自然科學(xué)版);1994年03期
7 李家國,李建華,章 程;一種Web站點網(wǎng)頁資源保護(hù)設(shè)計方案[J];計算機(jī)工程;2002年04期
8 于泠,陳波;基于數(shù)字指紋的網(wǎng)頁監(jiān)控與恢復(fù)系統(tǒng)[J];計算機(jī)工程與應(yīng)用;2002年02期
9 王貴竹,李津生,洪佩琳;MD5報文摘要算法與IPv6認(rèn)證[J];小型微型計算機(jī)系統(tǒng);2001年01期
10 徐小龍,王汝傳,鄧玉龍;用MD5技術(shù)構(gòu)建高安全性電子商務(wù)系統(tǒng)[J];南京郵電學(xué)院學(xué)報;2002年04期
相關(guān)會議論文 前10條
1 雍信陽;陳懷琛;;一種眼動信號的檢測算法[A];第一屆全國人—機(jī)—環(huán)境系統(tǒng)工程學(xué)術(shù)會議論文集[C];1993年
2 劉健;董超華;朱小祥;;FY—1C資料在云頂粒子熱力學(xué)相態(tài)分析中的應(yīng)用研究[A];第五屆全國優(yōu)秀青年氣象科技工作者學(xué)術(shù)研討會學(xué)術(shù)論文集[C];2002年
3 劉永斌;閻寧;封錦華;;第八部分 應(yīng)用研究 康復(fù)與人-機(jī)-環(huán)境系統(tǒng)工程[A];第一屆全國人—機(jī)—環(huán)境系統(tǒng)工程學(xué)術(shù)會議論文集[C];1993年
4 孫文強(qiáng);孫文力;夏國忠;;船載自動識別系統(tǒng)在未來航海中的應(yīng)用研究[A];2001航海技術(shù)現(xiàn)狀與發(fā)展趨勢論文集[C];2001年
5 周玉林;;鏑鐵合金粉的應(yīng)用研究[A];第九屆中國稀土企業(yè)家聯(lián)誼會會議論文集[C];2002年
6 劉建華;曾文憲;;城鎮(zhèn)基準(zhǔn)地價評估中樓面價的應(yīng)用研究[A];新世紀(jì)土地問題研究[C];2002年
7 韋燕飛;潘潤秋;;“3S”技術(shù)在西部土地監(jiān)察中的應(yīng)用研究[A];認(rèn)識地理過程 關(guān)注人類家園——中國地理學(xué)會2003年學(xué)術(shù)年會文集[C];2003年
8 姚志明;;上游站水位法原理淺析及應(yīng)用研究[A];中國水利學(xué)會2003學(xué)術(shù)年會論文集[C];2003年
9 章之蓉;謝瑞生;李俊;;聲馴化魚應(yīng)用研究[A];首屆粵港生物物理學(xué)術(shù)研討會論文集[C];1999年
10 戴曉陽;姚樹橋;蔡太生;楊堅;;NEO-PI-R在中國的應(yīng)用研究[A];第九屆全國心理學(xué)學(xué)術(shù)會議文摘選集[C];2001年
相關(guān)重要報紙文章 前10條
1 陳智罡;算法復(fù)雜度的分析方法及其運用[N];中國電腦教育報;2002年
2 范德生 鄧亞玲;守住網(wǎng)頁的秘密[N];電腦報;2005年
3 本報記者 陳曉晟;網(wǎng)游概念股走勢平穩(wěn) 網(wǎng)頁游戲或成新亮點[N];通信信息報;2008年
4 本報記者 楊陽;“我要玩”:網(wǎng)頁游戲集中營[N];經(jīng)濟(jì)觀察報;2009年
5 商報記者 金朝力;網(wǎng)頁游戲繁華之后難掩衰落[N];北京商報;2009年
6 本報記者 廖慶升;網(wǎng)游巨頭紛紛“涉水” 網(wǎng)頁游戲面臨洗牌[N];通信信息報;2009年
7 劉思齊;網(wǎng)頁游戲的春天即將來臨或?qū)②s超大型網(wǎng)游[N];中國高新技術(shù)產(chǎn)業(yè)導(dǎo)報;2009年
8 許冰洲 鞠金華;全國首個網(wǎng)頁游戲孵化器欲成網(wǎng)頁游戲產(chǎn)業(yè)基地[N];嘉興日報;2009年
9 商報記者 李鵬;網(wǎng)頁游戲:成長的煩惱[N];中國圖書商報;2009年
10 本報記者 李忠存;網(wǎng)頁游戲魚龍混雜 “偷菜”模式能否成救命稻草?[N];中國計算機(jī)報;2009年
相關(guān)博士學(xué)位論文 前10條
1 種勁松;合成孔徑雷達(dá)圖像艦船目標(biāo)檢測算法與應(yīng)用研究[D];中國科學(xué)院研究生院(電子學(xué)研究所);2002年
2 趙慧;MIMO系統(tǒng)中信號檢測技術(shù)的研究[D];北京郵電大學(xué);2006年
3 譚德慶;多維博弈及應(yīng)用研究[D];西南交通大學(xué);2004年
4 羅振東;MIMO無線通信系統(tǒng)的關(guān)鍵理論與技術(shù)研究[D];北京郵電大學(xué);2006年
5 許聯(lián)鋒;水氣兩相流動的數(shù)字圖像測量方法及應(yīng)用研究[D];西安理工大學(xué);2004年
6 華鋒;破碎波統(tǒng)計及應(yīng)用研究[D];中國科學(xué)院研究生院(海洋研究所);2005年
7 王勇;矩陣變換器的空間矢量調(diào)制、系統(tǒng)集成及應(yīng)用研究[D];浙江大學(xué);2005年
8 李艷菊;元寶楓繁育技術(shù)與應(yīng)用研究[D];北京林業(yè)大學(xué);2005年
9 李強(qiáng);放射狀土壤桿菌M-503產(chǎn)生物絮凝劑的制備、純化及應(yīng)用研究[D];山東大學(xué);2005年
10 符朝興;車輛彈性元件振動沖擊波動機(jī)理及其應(yīng)用研究[D];大連交通大學(xué);2005年
相關(guān)碩士學(xué)位論文 前10條
1 謝寒生;基于視頻技術(shù)的車輛違章檢測算法研究與設(shè)計[D];華中科技大學(xué);2004年
2 趙雪梅;電腦音樂軟件在小學(xué)音樂教學(xué)中的應(yīng)用研究[D];東北師范大學(xué);2004年
3 王波;數(shù)字校園的實現(xiàn)與應(yīng)用研究[D];大連理工大學(xué);2005年
4 涂濤;嵌入式瀏覽器網(wǎng)頁排版技術(shù)的研究與實現(xiàn)[D];華中科技大學(xué);2004年
5 陳國強(qiáng);有限元逆算法在汽車覆蓋件沖壓成形數(shù)值模擬中的應(yīng)用研究[D];華中科技大學(xué);2004年
6 符鶴;基于系統(tǒng)調(diào)用的入侵檢測實現(xiàn)與評估[D];中南大學(xué);2005年
7 成玉娟;液體中小目標(biāo)檢測算法研究及應(yīng)用[D];浙江大學(xué);2002年
8 劉娜;基于脈搏波的血壓和心血管狀態(tài)檢測算法的研究[D];浙江大學(xué);2004年
9 羅曉鳴;基于日志信息統(tǒng)計(異常)的檢測算法設(shè)計[D];電子科技大學(xué);2004年
10 胡卓穎;專題型網(wǎng)頁搜集器關(guān)鍵算法的研究及實現(xiàn)[D];江西師范大學(xué);2005年
本文編號:2387910
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/2387910.html