基于Hadoop架構(gòu)的商業(yè)推薦引擎協(xié)同過濾算法設(shè)計與實現(xiàn)
本文選題:推薦引擎 + Hadoop; 參考:《電子科技大學(xué)》2016年碩士論文
【摘要】:推薦系統(tǒng)已被廣泛使用在互聯(lián)網(wǎng)的各個方面,其中電子商務(wù)的高速發(fā)展離不開個性化地推薦系統(tǒng)。尤其近年來,推薦系統(tǒng)越來越明顯且有力地推動電子商務(wù)的業(yè)務(wù)增長;趨f(xié)同過濾的推薦算法是當(dāng)今電子商務(wù)推薦系統(tǒng)中最被廣泛采用的關(guān)鍵技術(shù)之一。在本文中通過全面介紹和研究當(dāng)今推薦系統(tǒng)采用的主要推薦算法,例如基于內(nèi)容、協(xié)同過濾算法等,以及學(xué)習(xí)了大數(shù)據(jù)處理平臺Hadoop,簡要介紹Hadoop的工作原理和Map Reduce計算方式和HDFS分布式存儲平臺。針對基于內(nèi)存的協(xié)同過濾算法的缺點,從相似度和加權(quán)平均方法切入,提出若干算法改進(jìn),改善推薦質(zhì)量和提高性能。對于采用皮爾遜系數(shù)的協(xié)同過濾算法來說,就是當(dāng)兩個用戶同時評分的項目數(shù)目比較少的時候,那么皮爾遜相關(guān)系數(shù)表現(xiàn)不佳,通過引入默認(rèn)預(yù)測值能較好地解決這個問題;當(dāng)某個項目被很多人同時評分,那么它容易和別的項目評分度較高,通過采取TF-IDF來解決;通過引入指數(shù)算法,來懲罰相似度低的項目的權(quán)重來提高推薦質(zhì)量;Weighted Slope One算法在保持預(yù)測準(zhǔn)確度的情況下提高系統(tǒng)性能。在協(xié)同過濾推薦算法中,因稀疏的用戶項目評分矩陣而導(dǎo)致的矩陣規(guī)模膨脹是一個十分棘手的問題。稀疏的用戶評價矩陣大大加重系統(tǒng)計算的時間。在本文中通過研究各種對矩陣降維的方法,例如奇異值矩陣分解技術(shù),非負(fù)矩陣因式分解等概率統(tǒng)計模型,解決稀疏矩陣的計算問題。由于電子商務(wù)平臺的迅速發(fā)展帶來的幾千萬的用戶數(shù)和數(shù)以億計的商品量(例如亞馬遜商城,天貓商城和京東商城等),對現(xiàn)有的推薦系統(tǒng)運(yùn)行性能提出了嚴(yán)峻的挑戰(zhàn)。依靠單機(jī)的推薦系統(tǒng)難以承受如此海量用戶和數(shù)據(jù)的計算量,因此如今電子商務(wù)網(wǎng)站普遍采用分布式集群計算機(jī)來實現(xiàn)商品推薦引擎。本文嘗試基于Hadoop實現(xiàn)一個具有伸縮性、高彈性、高容災(zāi)性、穩(wěn)定的商品推薦引擎的設(shè)計和實現(xiàn)。
[Abstract]:Recommendation system has been widely used in all aspects of the Internet, among which the rapid development of e-commerce can not be separated from personalized recommendation system. Especially in recent years, recommendation system is more and more obvious and powerful to promote the business growth of e-commerce. Collaborative filtering-based recommendation algorithm is one of the most widely used key technologies in e-commerce recommendation systems. In this paper, we introduce and study the main recommendation algorithms, such as content-based, collaborative filtering algorithms, which are used in today's recommendation systems. We also study the big data processing platform Hadoop, and briefly introduce the working principle of Hadoop, the Map Reduce computing method and the HDFS distributed storage platform. Aiming at the shortcomings of the memory-based collaborative filtering algorithm, this paper proposes some improvements from similarity and weighted average methods to improve the recommendation quality and performance. For the collaborative filtering algorithm with Pearson coefficient, when the number of items scored by two users at the same time is relatively small, then Pearson correlation coefficient is not good, through the introduction of default prediction value can solve this problem better; When a project is rated by many people at the same time, it is easy to score higher with other items, by adopting TF-IDF; by introducing an exponential algorithm. To punish the weights of items with low similarity to improve the quality of recommendation weighted Slope One algorithm improves system performance while maintaining prediction accuracy. In collaborative filtering recommendation algorithm, the expansion of matrix size caused by sparse user item scoring matrix is a very difficult problem. The sparse user evaluation matrix greatly increases the computing time of the system. In this paper, we study various methods to reduce the dimension of matrices, such as singular value matrix decomposition technique, non-negative matrix factorization and other probability and statistical models, to solve the problem of sparse matrix calculation. Due to the rapid development of e-commerce platform, tens of millions of users and hundreds of millions of goods (such as Amazon Mall, Tmall Mall and JingDong Mall, etc.) have posed a severe challenge to the performance of the existing recommendation system. It is difficult for a recommendation system to rely on a single computer to support such a huge amount of users and data, so nowadays e-commerce websites generally use distributed cluster computers to implement the commodity recommendation engine. This paper attempts to design and implement a product recommendation engine with scalability, high flexibility, high disaster tolerance and stability based on Hadoop.
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP391.3
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 楊風(fēng)召;;一種基于特征表的協(xié)同過濾算法[J];計算機(jī)工程與應(yīng)用;2007年06期
2 王嵐;翟正軍;;基于時間加權(quán)的協(xié)同過濾算法[J];計算機(jī)應(yīng)用;2007年09期
3 曾子明;張李義;;基于多屬性決策和協(xié)同過濾的智能導(dǎo)購系統(tǒng)[J];武漢大學(xué)學(xué)報(工學(xué)版);2008年02期
4 張富國;;用戶多興趣下基于信任的協(xié)同過濾算法研究[J];小型微型計算機(jī)系統(tǒng);2008年08期
5 侯翠琴;焦李成;張文革;;一種壓縮稀疏用戶評分矩陣的協(xié)同過濾算法[J];西安電子科技大學(xué)學(xué)報;2009年04期
6 廖新考;;基于用戶特征和項目屬性的混合協(xié)同過濾推薦[J];福建電腦;2010年07期
7 沈磊;周一民;李舟軍;;基于心理學(xué)模型的協(xié)同過濾推薦方法[J];計算機(jī)工程;2010年20期
8 徐紅;彭黎;郭艾寅;徐云劍;;基于用戶多興趣的協(xié)同過濾策略改進(jìn)研究[J];計算機(jī)技術(shù)與發(fā)展;2011年04期
9 焦晨斌;王世卿;;基于模型填充的混合協(xié)同過濾算法[J];微計算機(jī)信息;2011年11期
10 鄭婕;鮑海琴;;基于協(xié)同過濾推薦技術(shù)的個性化網(wǎng)絡(luò)教學(xué)平臺研究[J];科技風(fēng);2012年06期
相關(guān)會議論文 前10條
1 沈杰峰;杜亞軍;唐俊;;一種基于項目分類的協(xié)同過濾算法[A];第二十二屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2005年
2 周軍鋒;湯顯;郭景峰;;一種優(yōu)化的協(xié)同過濾推薦算法[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2004年
3 董全德;;基于雙信息源的協(xié)同過濾算法研究[A];全國第20屆計算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會議(CACIS·2009)暨全國第1屆安全關(guān)鍵技術(shù)與應(yīng)用學(xué)術(shù)會議論文集(上冊)[C];2009年
4 張光衛(wèi);康建初;李鶴松;劉常昱;李德毅;;面向場景的協(xié)同過濾推薦算法[A];中國系統(tǒng)仿真學(xué)會第五次全國會員代表大會暨2006年全國學(xué)術(shù)年會論文集[C];2006年
5 李建國;姚良超;湯庸;郭歡;;基于認(rèn)知度的協(xié)同過濾推薦算法[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)[C];2009年
6 王明文;陶紅亮;熊小勇;;雙向聚類迭代的協(xié)同過濾推薦算法[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年
7 胡必云;李舟軍;王君;;基于心理測量學(xué)的協(xié)同過濾相似度方法(英文)[A];NDBC2010第27屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)[C];2010年
8 林麗冰;師瑞峰;周一民;李月雷;;基于雙聚類的協(xié)同過濾推薦算法[A];2008'中國信息技術(shù)與應(yīng)用學(xué)術(shù)論壇論文集(一)[C];2008年
9 羅喜軍;王韜丞;杜小勇;劉紅巖;何軍;;基于類別的推薦——一種解決協(xié)同推薦中冷啟動問題的方法[A];第二十四屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2007年
10 黃創(chuàng)光;印鑒;汪靜;劉玉葆;王甲海;;不確定近鄰的協(xié)同過濾推薦算法[A];NDBC2010第27屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集A輯一[C];2010年
相關(guān)博士學(xué)位論文 前10條
1 紀(jì)科;融合上下文信息的混合協(xié)同過濾推薦算法研究[D];北京交通大學(xué);2016年
2 程殿虎;基于協(xié)同過濾的社會網(wǎng)絡(luò)推薦系統(tǒng)關(guān)鍵技術(shù)研究[D];中國海洋大學(xué);2015年
3 于程遠(yuǎn);基于QoS的Web服務(wù)推薦技術(shù)研究[D];上海交通大學(xué);2015年
4 李聰;電子商務(wù)推薦系統(tǒng)中協(xié)同過濾瓶頸問題研究[D];合肥工業(yè)大學(xué);2009年
5 郭艷紅;推薦系統(tǒng)的協(xié)同過濾算法與應(yīng)用研究[D];大連理工大學(xué);2008年
6 羅恒;基于協(xié)同過濾視角的受限玻爾茲曼機(jī)研究[D];上海交通大學(xué);2011年
7 薛福亮;電子商務(wù)協(xié)同過濾推薦質(zhì)量影響因素及其改進(jìn)機(jī)制研究[D];天津大學(xué);2012年
8 高e,
本文編號:1908811
本文鏈接:http://www.sikaile.net/jingjilunwen/dianzishangwulunwen/1908811.html