基于Hadoop的并行混合推薦算法及工具研究

發(fā)布時(shí)間：2017-09-29 09:11

本文關(guān)鍵詞：基于Hadoop的并行混合推薦算法及工具研究

更多相關(guān)文章： 推薦算法 并行化 配對(duì)相似度

【摘要】：隨著計(jì)算機(jī)技術(shù)的發(fā)展,互聯(lián)網(wǎng)已經(jīng)融入到人們生活的方方面面,用戶(hù)可以通過(guò)互聯(lián)網(wǎng)輕而易舉的獲取大量信息,然而在享受這種便利的同時(shí),用戶(hù)也開(kāi)始遇到信息“過(guò)載”的問(wèn)題。面對(duì)海量的信息,用戶(hù)往往難以取舍,并從中提取出真正需要的內(nèi)容。搜索引擎技術(shù),通過(guò)對(duì)關(guān)鍵字的檢索,在一定程度上緩解了這一問(wèn)題。然而,基于搜索引擎的信息檢索技術(shù),會(huì)給用戶(hù)呈現(xiàn)大量無(wú)關(guān)或者不感興趣的內(nèi)容。如何在信息過(guò)載的情況下給用戶(hù)提供更個(gè)性化更貼近用戶(hù)需求的信息,成為了互聯(lián)網(wǎng)發(fā)展中的熱點(diǎn)問(wèn)題。而推薦系統(tǒng),被認(rèn)為是當(dāng)前解決以上問(wèn)題,給用戶(hù)提供更加個(gè)性化信息最有效的工具之一。推薦問(wèn)題從根本上說(shuō)就是從用戶(hù)的角度出發(fā),代替用戶(hù)去評(píng)估其從未看過(guò)的產(chǎn)品,使用戶(hù)不只是被動(dòng)的網(wǎng)頁(yè)瀏覽者,而成為主動(dòng)參與者。準(zhǔn)確、高效的推薦系統(tǒng)可以挖掘用戶(hù)的偏好和需求,從而成為發(fā)現(xiàn)用戶(hù)潛在的消費(fèi)傾向,為其提供個(gè)性化服務(wù)。協(xié)同過(guò)濾算法是一種基于統(tǒng)計(jì)的推薦系統(tǒng)算法,由于該算法模型簡(jiǎn)單、訓(xùn)練復(fù)雜度低、推薦性能優(yōu)秀等特點(diǎn),廣泛應(yīng)用于各類(lèi)推薦系統(tǒng)之中。它通過(guò)收集用戶(hù)的歷史行為信息,通過(guò)相似性的計(jì)算,來(lái)搜索與當(dāng)前用戶(hù)具有相同或者相近興趣愛(ài)好的其他用戶(hù),形成近鄰。然后,根據(jù)近鄰用戶(hù)的歷史行為,例如用戶(hù)對(duì)物品的歷史評(píng)價(jià)信息,來(lái)預(yù)測(cè)當(dāng)前用戶(hù)對(duì)物品的評(píng)價(jià)或者可能的行為。然而,傳統(tǒng)的協(xié)同過(guò)濾算法,在較好的滿(mǎn)足了推薦系統(tǒng)的需求的同時(shí),也面臨著一些系列的挑戰(zhàn),例如數(shù)據(jù)的稀疏性、相似性度量的準(zhǔn)確性、實(shí)時(shí)性和可擴(kuò)展性等。如何應(yīng)對(duì)這些挑戰(zhàn),是推薦系統(tǒng)需要解決的重要問(wèn)題。本文的主要工作如下：1.本文針對(duì)傳統(tǒng)相似性度量方法對(duì)于內(nèi)容信息利用不充分,度量不準(zhǔn)確的問(wèn)題,提出了一種基于配對(duì)的相似性度量方法。該方法利用物品間的屬性信息,在物品屬性的縱向和和橫向兩個(gè)不同層面分別求出物品的屬性?xún)?nèi)相似度和屬性間相似度。屬性?xún)?nèi)相似度和屬性間相似度再進(jìn)一步結(jié)合成配對(duì)相似度,利用配對(duì)相似度結(jié)合基于內(nèi)存或基于模型的協(xié)同過(guò)濾算法構(gòu)建了混合推薦算法。實(shí)驗(yàn)結(jié)果表明,該通過(guò)相似度度量方法構(gòu)建的混合推薦算法能有效地提高推薦的精確度。2.本文針對(duì)海量數(shù)據(jù)環(huán)境以及配對(duì)相似度本身的計(jì)算復(fù)雜度造成的可擴(kuò)展性問(wèn)題,選取了MapReduce分布式計(jì)算模型和Hadoop分布式計(jì)算系統(tǒng)作為應(yīng)對(duì)策略,利用分布式計(jì)算的辦法來(lái)加速配對(duì)相似度的計(jì)算速率。實(shí)驗(yàn)結(jié)果表明,該并行化方法提高了在海量數(shù)據(jù)下基于配對(duì)相似度的混合推薦算法的可擴(kuò)展性。3.本文介紹了一個(gè)基于云計(jì)算平臺(tái)的海量數(shù)據(jù)工具箱的設(shè)計(jì)和實(shí)現(xiàn),這里本文將會(huì)介紹該工具箱的四個(gè)功能模塊,它們是集群管理模塊、數(shù)據(jù)集管理模塊、算法管理模塊與任務(wù)管理模塊,然后以推薦算法為例介紹了用戶(hù)使用該工具箱的詳細(xì)流程。
【關(guān)鍵詞】：推薦算法 并行化 配對(duì)相似度
【學(xué)位授予單位】：南京大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位授予年份】：2014
【分類(lèi)號(hào)】：TP391.3
【目錄】：

摘要4-6
Abstract6-14
第一章緒論14-23
1.1 研究背景14-15
1.2 國(guó)內(nèi)外研究現(xiàn)狀15-19
1.2.1 推薦系統(tǒng)15-17
1.2.2 云計(jì)算及算法并行化17-19
1.3 面臨的問(wèn)題和挑戰(zhàn)19-21
1.3.1 推薦系統(tǒng)19-20
1.3.2 云計(jì)算及算法并行化20-21
1.4 本文的主要工作和安排21-23
第二章推薦系統(tǒng)算法介紹23-33
2.1 基于內(nèi)容的推薦算法23-24
2.2 基于內(nèi)存的協(xié)同過(guò)濾算法24-28
2.2.1 基于用戶(hù)的協(xié)同過(guò)濾算法24-27
2.2.2 基于物品的協(xié)同過(guò)濾算法27-28
2.3 基于模型的協(xié)同過(guò)濾算法28-31
2.3.1 基于聚類(lèi)的協(xié)同過(guò)濾算法28-29
2.3.2 基于潛在語(yǔ)義分析的協(xié)同過(guò)濾算法29-31
2.4 混合的推薦算法及其他算法31
2.5 推薦算法評(píng)估31-32
2.6 本章小結(jié)32-33
第三章云計(jì)算相關(guān)技術(shù)33-39
3.1 Hadoop和MapReduce33-34
3.1.1 Hadoop的起源和發(fā)展33
3.1.2 MapRedcue的設(shè)計(jì)目標(biāo)33-34
3.1.3 MapRedcue編程模型介紹34
3.2 下一代MapReduce框架34-37
3.2.1 Apache YARN35-36
3.2.2 Facebook Corona36-37
3.3 Spark37-38
3.4 本章小結(jié)38-39
第四章基于配對(duì)相似度的混合推薦算法39-48
4.1 配對(duì)相似度39-41
4.2 基于配對(duì)相似度的推薦算法41-42
4.3 基于配對(duì)相似度的混合推薦算法42-43
4.4 實(shí)驗(yàn)設(shè)計(jì)及結(jié)果分析43-47
4.4.1 實(shí)驗(yàn)數(shù)據(jù)43-45
4.4.2 實(shí)驗(yàn)設(shè)置45
4.4.3 實(shí)驗(yàn)結(jié)果及分析45-47
4.5 本章小結(jié)47-48
第五章配對(duì)相似度計(jì)算的并行化實(shí)現(xiàn)48-62
5.1 總體框架48-49
5.2 算法描述49-59
5.2.1 并行化計(jì)算屬性?xún)?nèi)相似度(Parallelized-IaAVS)49-54
5.2.2 并行化計(jì)算屬性間相似度(Parallelized-IeAVS)54-58
5.2.3 并行化計(jì)算配對(duì)相似度(Parallelized-COS)58-59
5.3 實(shí)驗(yàn)設(shè)計(jì)及結(jié)果分析59-60
5.3.1 實(shí)驗(yàn)環(huán)境59
5.3.2 實(shí)驗(yàn)設(shè)置59
5.3.3 實(shí)驗(yàn)結(jié)果及分析59-60
5.4 本章小結(jié)60-62
第六章基于云計(jì)算平臺(tái)的海量數(shù)據(jù)挖掘工具箱62-71
6.1 工具箱的需求和目標(biāo)62-63
6.2 模塊設(shè)計(jì)63-65
6.2.1 集群控制模塊63-64
6.2.2 數(shù)據(jù)集管理模塊64
6.2.3 算法管理模塊64-65
6.2.4 任務(wù)管理及可視化模塊65
6.3 用戶(hù)操作流程65-66
6.4 在工具箱中使用推薦算法66-70
6.4.1 啟動(dòng)/配置Hadoop66-68
6.4.2 上傳數(shù)據(jù)集68-69
6.4.3 選擇算法/配置參數(shù)69
6.4.4 提交任務(wù)/獲取結(jié)果69-70
6.5 本章小結(jié)70-71
第七章總結(jié)和展望71-73
7.1 總結(jié)71-72
7.2 展望72-73
參考文獻(xiàn)73-78
簡(jiǎn)歷與科研成果78-79
致謝79-80

【相似文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 徐義峰;徐云青;劉曉平;;一種基于時(shí)間序列性的推薦算法[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2006年10期

2 余小鵬;;一種基于多層關(guān)聯(lián)規(guī)則的推薦算法研究[J];計(jì)算機(jī)應(yīng)用;2007年06期

3 張海玉;劉志都;楊彩;賈松浩;;基于頁(yè)面聚類(lèi)的推薦算法的改進(jìn)[J];計(jì)算機(jī)應(yīng)用與軟件;2008年09期

4 張立燕;;一種基于用戶(hù)事務(wù)模式的推薦算法[J];福建電腦;2009年03期

5 王晗;夏自謙;;基于蟻群算法和瀏覽路徑的推薦算法研究[J];中國(guó)科技信息;2009年07期

6 周珊丹;周興社;王海鵬;倪紅波;張桂英;苗強(qiáng);;智能博物館環(huán)境下的個(gè)性化推薦算法[J];計(jì)算機(jī)工程與應(yīng)用;2010年19期

7 王文;;個(gè)性化推薦算法研究[J];電腦知識(shí)與技術(shù);2010年16期

8 張愷;秦亮曦;寧朝波;李文閣;;改進(jìn)評(píng)價(jià)估計(jì)的混合推薦算法研究[J];微計(jì)算機(jī)信息;2010年36期

9 夏秀峰;代沁;叢麗暉;;用戶(hù)顯意識(shí)下的多重態(tài)度個(gè)性化推薦算法[J];計(jì)算機(jī)工程與應(yīng)用;2011年16期

10 楊博;趙鵬飛;;推薦算法綜述[J];山西大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年03期

中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條

1 王韜丞;羅喜軍;杜小勇;;基于層次的推薦:一種新的個(gè)性化推薦算法[A];第二十四屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集（技術(shù)報(bào)告篇）[C];2007年

2 唐燦;;基于模糊用戶(hù)心理模式的個(gè)性化推薦算法[A];2008年計(jì)算機(jī)應(yīng)用技術(shù)交流會(huì)論文集[C];2008年

3 秦國(guó);杜小勇;;基于用戶(hù)層次信息的協(xié)同推薦算法[A];第二十一屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集（技術(shù)報(bào)告篇）[C];2004年

4 周玉妮;鄭會(huì)頌;;基于瀏覽路徑選擇的蟻群推薦算法:用于移動(dòng)商務(wù)個(gè)性化推薦系統(tǒng)[A];社會(huì)經(jīng)濟(jì)發(fā)展轉(zhuǎn)型與系統(tǒng)工程——中國(guó)系統(tǒng)工程學(xué)會(huì)第17屆學(xué)術(shù)年會(huì)論文集[C];2012年

5 蘇日啟;胡皓;汪秉宏;;基于網(wǎng)絡(luò)的含時(shí)推薦算法[A];第五屆全國(guó)復(fù)雜網(wǎng)絡(luò)學(xué)術(shù)會(huì)議論文（摘要）匯集[C];2009年

6 梁莘q，

本文編號(hào)：941173

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/941173.html

上一篇：面向主題搜索的網(wǎng)絡(luò)爬蟲(chóng)信息采集策略研究
下一篇：搜索引擎競(jìng)價(jià)排名中消費(fèi)者知情權(quán)的保護(hù)對(duì)策

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Hadoop的并行混合推薦算法及工具研究