天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

聚類算法在網(wǎng)頁分類中的應(yīng)用研究

發(fā)布時(shí)間:2018-08-20 12:28
【摘要】:近年來,隨著信息技術(shù)的不斷發(fā)展,網(wǎng)頁數(shù)量大幅度增長,網(wǎng)絡(luò)上的信息量急劇增加,用戶對網(wǎng)頁信息的搜索是通過搜索引擎實(shí)現(xiàn)的。搜索引擎可以幫助用戶屏蔽掉大量的無關(guān)的信息。搜索引擎系統(tǒng)已進(jìn)入以智能化、人性化為標(biāo)志的第三時(shí)代。這一時(shí)代區(qū)別于前兩個(gè)時(shí)代最大的特點(diǎn)是將人工智能技術(shù)運(yùn)動(dòng)到搜索引擎系統(tǒng)中,而聚類算法就是其中最主要的算法。 聚類技術(shù)將搜索引擎返回的結(jié)果分為若干個(gè)類,供用戶進(jìn)行有針對性地查找。目前現(xiàn)存的搜索引擎大多單純地對網(wǎng)頁內(nèi)容進(jìn)行聚類,本文在分析了現(xiàn)存的聚類算法的基礎(chǔ)上,對常用的算法進(jìn)行了優(yōu)將CBC算法運(yùn)用到網(wǎng)頁聚類中,并且加入了搜索詞作為主要的參照數(shù)據(jù),通過在聚類中加大的搜索詞的權(quán)重,在特征權(quán)值的計(jì)算中等方面對CBC算法進(jìn)行了改進(jìn)。實(shí)現(xiàn)了改進(jìn)后的CBC算法,并且用數(shù)據(jù)集對新算法與傳統(tǒng)的K-means算法的結(jié)果進(jìn)行了比較,證明算法在精確度上優(yōu)于傳統(tǒng)的K-means算法,在效率上也有較為明顯的優(yōu)勢。 最后,本文在改進(jìn)的聚類算法的基礎(chǔ)上設(shè)計(jì)了一個(gè)中文聚類系統(tǒng),對于網(wǎng)頁從抓取到分析,,再到分類都做了模塊化的設(shè)計(jì)工作,并在此基礎(chǔ)上對算法以及下一步的工作提出了改進(jìn)的想法。
[Abstract]:In recent years, with the continuous development of information technology, the number of web pages has increased dramatically, and the amount of information on the network has increased sharply. Search engines can help users block out a lot of irrelevant information. Search engine system has entered the third era marked by intelligence and humanization. The most important characteristic of this era is to move artificial intelligence technology into search engine system, and clustering algorithm is the most important one. Clustering technology divides the results returned by search engines into several classes for users to search. At present, most of the existing search engines simply cluster the content of the web pages. Based on the analysis of the existing clustering algorithms, this paper applies the CBC algorithm to the web page clustering. The search term is added as the main reference data, and the CBC algorithm is improved in the calculation of the feature weight by increasing the weight of the search term in the clustering. The improved CBC algorithm is implemented, and the results of the new algorithm and the traditional K-means algorithm are compared with the data set. It is proved that the algorithm is superior to the traditional K-means algorithm in accuracy and has obvious advantages in efficiency. Finally, this paper designs a Chinese clustering system based on the improved clustering algorithm. On this basis, the algorithm and the next work are proposed to improve the idea.
【學(xué)位授予單位】:北京化工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2013
【分類號】:TP391.1

【參考文獻(xiàn)】

相關(guān)期刊論文 前5條

1 陳建超;胡桂武;楊志華;嚴(yán)桂奪;;基于全局性確定聚類中心的文本聚類[J];計(jì)算機(jī)工程與應(yīng)用;2011年10期

2 熊忠陽;吳林敏;張玉芳;;針對非均勻數(shù)據(jù)集的DBSCAN過濾式改進(jìn)算法[J];計(jì)算機(jī)應(yīng)用研究;2009年10期

3 閆仁武;商好值;;一種基于遺傳算法的模糊C均值算法[J];科學(xué)技術(shù)與工程;2010年28期

4 趙慧;劉希玉;崔海青;;網(wǎng)格聚類算法[J];計(jì)算機(jī)技術(shù)與發(fā)展;2010年09期

5 孔繼利;顧傜;孫欣;馮愛蘭;;系統(tǒng)聚類和重心法在多節(jié)點(diǎn)配送中心選址中的研究[J];物流技術(shù);2010年05期

相關(guān)會議論文 前1條

1 李世峰;黃磊;劉昌平;;幾種聚類方法的比較[A];第八屆全國漢字識別學(xué)術(shù)會議論文集[C];2002年

相關(guān)博士學(xué)位論文 前1條

1 于澝;基于一維SOM神經(jīng)網(wǎng)絡(luò)的聚類及數(shù)據(jù)分析方法研究[D];天津大學(xué);2009年

相關(guān)碩士學(xué)位論文 前2條

1 林麗;基于語義距離的文本聚類算法研究[D];廈門大學(xué);2007年

2 翟少丹;基于混合模型的聚類算法研究[D];西北大學(xué);2009年



本文編號:2193609

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/2193609.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶52cb3***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com