基于Hadoop的PageRank算法的研究與改進(jìn)
本文關(guān)鍵詞:基于Hadoop的PageRank算法的研究與改進(jìn)
更多相關(guān)文章: 計(jì)算機(jī)應(yīng)用技術(shù) 嵌入式系統(tǒng)工程 Page Rank Map Reduce Hadoop
【摘要】:傳統(tǒng)Page Rank算法單純從網(wǎng)頁(yè)鏈接結(jié)構(gòu)進(jìn)行分析而未考慮搜索主題漂移、側(cè)重于舊網(wǎng)頁(yè)以及忽略用戶興趣的問(wèn)題。為提高搜索引擎檢索效率,通過(guò)增加主題內(nèi)容相關(guān)度、有效點(diǎn)擊頻率和時(shí)間反饋因子對(duì)算法進(jìn)行改進(jìn)。使用分布式計(jì)算框架Map Reduce實(shí)現(xiàn)改進(jìn)算法并部署運(yùn)行在Hadoop集群上。對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行對(duì)比分析,發(fā)現(xiàn)改進(jìn)后的Page Rank算法在Nutch上的爬取索引效率提高7.209%,用戶在網(wǎng)頁(yè)檢索效率上提高10.12%,查準(zhǔn)率提高21.4%,同時(shí),隨著集群節(jié)點(diǎn)數(shù)和數(shù)據(jù)量的增加,搜索引擎的檢索效率逐漸增強(qiáng)。
【作者單位】: 成都信息工程大學(xué)計(jì)算機(jī)學(xué)院;
【關(guān)鍵詞】: 計(jì)算機(jī)應(yīng)用技術(shù) 嵌入式系統(tǒng)工程 Page Rank Map Reduce Hadoop
【基金】:省科技廳科技支撐計(jì)劃資助項(xiàng)目(2012SZ0070)
【分類號(hào)】:TP391.3
【正文快照】: 0引言隨著大數(shù)據(jù)時(shí)代的到來(lái),網(wǎng)絡(luò)數(shù)據(jù)呈指數(shù)增長(zhǎng),如何通過(guò)搜索引擎從海量數(shù)據(jù)中快速、方便、高效地檢索到符合需求的信息已經(jīng)迫在眉睫。搜索引擎技術(shù)中網(wǎng)頁(yè)排序算法成為了關(guān)鍵部分。Page Rank算法是由Google創(chuàng)始人Brin和Page等于1998提出的,算法根據(jù)網(wǎng)頁(yè)鏈接結(jié)構(gòu)分析和計(jì)算網(wǎng)
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前9條
1 陳謙;;PageRank算法在孤立點(diǎn)檢測(cè)中的應(yīng)用[J];微型機(jī)與應(yīng)用;2010年24期
2 張光年;李茂青;;基于PageRank算法的一種搜索引擎優(yōu)化方法及實(shí)現(xiàn)[J];科技信息;2007年04期
3 張毅;張冬梅;;搜索引擎PageRank算法的比較與改進(jìn)[J];科技創(chuàng)新導(dǎo)報(bào);2008年21期
4 余潤(rùn)海;;PageRank算法在網(wǎng)頁(yè)搜索中的實(shí)現(xiàn)[J];考試周刊;2009年24期
5 李永亮;黃曙光;鮑蕾;;一種基于PageRank算法和知網(wǎng)的詞義消歧方法[J];計(jì)算機(jī)應(yīng)用與軟件;2011年05期
6 王兵;許少華;張興旺;;基于改進(jìn)PageRank算法的管道專業(yè)搜索引擎系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J];大慶石油學(xué)院學(xué)報(bào);2007年01期
7 李強(qiáng);王申康;;一種基于PageRank算法原理的會(huì)員人氣度排序算法[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2008年01期
8 孟瑞玲;;個(gè)性化PageRank算法在圖書館智能搜索引擎中的實(shí)現(xiàn)[J];現(xiàn)代情報(bào);2010年07期
9 ;[J];;年期
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前4條
1 許彬;基于增強(qiáng)型類PageRank算法的搜索引擎的研究與設(shè)計(jì)[D];武漢理工大學(xué);2014年
2 袁方;基于改進(jìn)PageRank算法的個(gè)性化搜索的研究[D];北京郵電大學(xué);2012年
3 王曉梅;惡意URL檢測(cè)項(xiàng)目中基于PageRank算法的網(wǎng)絡(luò)爬蟲的設(shè)計(jì)和實(shí)現(xiàn)[D];北京郵電大學(xué);2010年
4 陳謙;一種基于PageRank算法的孤立點(diǎn)檢測(cè)方法及應(yīng)用[D];暨南大學(xué);2011年
,本文編號(hào):730760
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/730760.html