基于Hadoop的并行混合推薦算法及工具研究
本文關(guān)鍵詞:基于Hadoop的并行混合推薦算法及工具研究
更多相關(guān)文章: 推薦算法 并行化 配對(duì)相似度
【摘要】:隨著計(jì)算機(jī)技術(shù)的發(fā)展,互聯(lián)網(wǎng)已經(jīng)融入到人們生活的方方面面,用戶(hù)可以通過(guò)互聯(lián)網(wǎng)輕而易舉的獲取大量信息,然而在享受這種便利的同時(shí),用戶(hù)也開(kāi)始遇到信息“過(guò)載”的問(wèn)題。面對(duì)海量的信息,用戶(hù)往往難以取舍,并從中提取出真正需要的內(nèi)容。搜索引擎技術(shù),通過(guò)對(duì)關(guān)鍵字的檢索,在一定程度上緩解了這一問(wèn)題。然而,基于搜索引擎的信息檢索技術(shù),會(huì)給用戶(hù)呈現(xiàn)大量無(wú)關(guān)或者不感興趣的內(nèi)容。如何在信息過(guò)載的情況下給用戶(hù)提供更個(gè)性化更貼近用戶(hù)需求的信息,成為了互聯(lián)網(wǎng)發(fā)展中的熱點(diǎn)問(wèn)題。而推薦系統(tǒng),被認(rèn)為是當(dāng)前解決以上問(wèn)題,給用戶(hù)提供更加個(gè)性化信息最有效的工具之一。推薦問(wèn)題從根本上說(shuō)就是從用戶(hù)的角度出發(fā),代替用戶(hù)去評(píng)估其從未看過(guò)的產(chǎn)品,使用戶(hù)不只是被動(dòng)的網(wǎng)頁(yè)瀏覽者,而成為主動(dòng)參與者。準(zhǔn)確、高效的推薦系統(tǒng)可以挖掘用戶(hù)的偏好和需求,從而成為發(fā)現(xiàn)用戶(hù)潛在的消費(fèi)傾向,為其提供個(gè)性化服務(wù)。協(xié)同過(guò)濾算法是一種基于統(tǒng)計(jì)的推薦系統(tǒng)算法,由于該算法模型簡(jiǎn)單、訓(xùn)練復(fù)雜度低、推薦性能優(yōu)秀等特點(diǎn),廣泛應(yīng)用于各類(lèi)推薦系統(tǒng)之中。它通過(guò)收集用戶(hù)的歷史行為信息,通過(guò)相似性的計(jì)算,來(lái)搜索與當(dāng)前用戶(hù)具有相同或者相近興趣愛(ài)好的其他用戶(hù),形成近鄰。然后,根據(jù)近鄰用戶(hù)的歷史行為,例如用戶(hù)對(duì)物品的歷史評(píng)價(jià)信息,來(lái)預(yù)測(cè)當(dāng)前用戶(hù)對(duì)物品的評(píng)價(jià)或者可能的行為。然而,傳統(tǒng)的協(xié)同過(guò)濾算法,在較好的滿(mǎn)足了推薦系統(tǒng)的需求的同時(shí),也面臨著一些系列的挑戰(zhàn),例如數(shù)據(jù)的稀疏性、相似性度量的準(zhǔn)確性、實(shí)時(shí)性和可擴(kuò)展性等。如何應(yīng)對(duì)這些挑戰(zhàn),是推薦系統(tǒng)需要解決的重要問(wèn)題。本文的主要工作如下:1.本文針對(duì)傳統(tǒng)相似性度量方法對(duì)于內(nèi)容信息利用不充分,度量不準(zhǔn)確的問(wèn)題,提出了一種基于配對(duì)的相似性度量方法。該方法利用物品間的屬性信息,在物品屬性的縱向和和橫向兩個(gè)不同層面分別求出物品的屬性?xún)?nèi)相似度和屬性間相似度。屬性?xún)?nèi)相似度和屬性間相似度再進(jìn)一步結(jié)合成配對(duì)相似度,利用配對(duì)相似度結(jié)合基于內(nèi)存或基于模型的協(xié)同過(guò)濾算法構(gòu)建了混合推薦算法。實(shí)驗(yàn)結(jié)果表明,該通過(guò)相似度度量方法構(gòu)建的混合推薦算法能有效地提高推薦的精確度。2.本文針對(duì)海量數(shù)據(jù)環(huán)境以及配對(duì)相似度本身的計(jì)算復(fù)雜度造成的可擴(kuò)展性問(wèn)題,選取了MapReduce分布式計(jì)算模型和Hadoop分布式計(jì)算系統(tǒng)作為應(yīng)對(duì)策略,利用分布式計(jì)算的辦法來(lái)加速配對(duì)相似度的計(jì)算速率。實(shí)驗(yàn)結(jié)果表明,該并行化方法提高了在海量數(shù)據(jù)下基于配對(duì)相似度的混合推薦算法的可擴(kuò)展性。3.本文介紹了一個(gè)基于云計(jì)算平臺(tái)的海量數(shù)據(jù)工具箱的設(shè)計(jì)和實(shí)現(xiàn),這里本文將會(huì)介紹該工具箱的四個(gè)功能模塊,它們是集群管理模塊、數(shù)據(jù)集管理模塊、算法管理模塊與任務(wù)管理模塊,然后以推薦算法為例介紹了用戶(hù)使用該工具箱的詳細(xì)流程。
【關(guān)鍵詞】:推薦算法 并行化 配對(duì)相似度
【學(xué)位授予單位】:南京大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類(lèi)號(hào)】:TP391.3
【目錄】:
- 摘要4-6
- Abstract6-14
- 第一章 緒論14-23
- 1.1 研究背景14-15
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀15-19
- 1.2.1 推薦系統(tǒng)15-17
- 1.2.2 云計(jì)算及算法并行化17-19
- 1.3 面臨的問(wèn)題和挑戰(zhàn)19-21
- 1.3.1 推薦系統(tǒng)19-20
- 1.3.2 云計(jì)算及算法并行化20-21
- 1.4 本文的主要工作和安排21-23
- 第二章 推薦系統(tǒng)算法介紹23-33
- 2.1 基于內(nèi)容的推薦算法23-24
- 2.2 基于內(nèi)存的協(xié)同過(guò)濾算法24-28
- 2.2.1 基于用戶(hù)的協(xié)同過(guò)濾算法24-27
- 2.2.2 基于物品的協(xié)同過(guò)濾算法27-28
- 2.3 基于模型的協(xié)同過(guò)濾算法28-31
- 2.3.1 基于聚類(lèi)的協(xié)同過(guò)濾算法28-29
- 2.3.2 基于潛在語(yǔ)義分析的協(xié)同過(guò)濾算法29-31
- 2.4 混合的推薦算法及其他算法31
- 2.5 推薦算法評(píng)估31-32
- 2.6 本章小結(jié)32-33
- 第三章 云計(jì)算相關(guān)技術(shù)33-39
- 3.1 Hadoop和MapReduce33-34
- 3.1.1 Hadoop的起源和發(fā)展33
- 3.1.2 MapRedcue的設(shè)計(jì)目標(biāo)33-34
- 3.1.3 MapRedcue編程模型介紹34
- 3.2 下一代MapReduce框架34-37
- 3.2.1 Apache YARN35-36
- 3.2.2 Facebook Corona36-37
- 3.3 Spark37-38
- 3.4 本章小結(jié)38-39
- 第四章 基于配對(duì)相似度的混合推薦算法39-48
- 4.1 配對(duì)相似度39-41
- 4.2 基于配對(duì)相似度的推薦算法41-42
- 4.3 基于配對(duì)相似度的混合推薦算法42-43
- 4.4 實(shí)驗(yàn)設(shè)計(jì)及結(jié)果分析43-47
- 4.4.1 實(shí)驗(yàn)數(shù)據(jù)43-45
- 4.4.2 實(shí)驗(yàn)設(shè)置45
- 4.4.3 實(shí)驗(yàn)結(jié)果及分析45-47
- 4.5 本章小結(jié)47-48
- 第五章 配對(duì)相似度計(jì)算的并行化實(shí)現(xiàn)48-62
- 5.1 總體框架48-49
- 5.2 算法描述49-59
- 5.2.1 并行化計(jì)算屬性?xún)?nèi)相似度(Parallelized-IaAVS)49-54
- 5.2.2 并行化計(jì)算屬性間相似度(Parallelized-IeAVS)54-58
- 5.2.3 并行化計(jì)算配對(duì)相似度(Parallelized-COS)58-59
- 5.3 實(shí)驗(yàn)設(shè)計(jì)及結(jié)果分析59-60
- 5.3.1 實(shí)驗(yàn)環(huán)境59
- 5.3.2 實(shí)驗(yàn)設(shè)置59
- 5.3.3 實(shí)驗(yàn)結(jié)果及分析59-60
- 5.4 本章小結(jié)60-62
- 第六章 基于云計(jì)算平臺(tái)的海量數(shù)據(jù)挖掘工具箱62-71
- 6.1 工具箱的需求和目標(biāo)62-63
- 6.2 模塊設(shè)計(jì)63-65
- 6.2.1 集群控制模塊63-64
- 6.2.2 數(shù)據(jù)集管理模塊64
- 6.2.3 算法管理模塊64-65
- 6.2.4 任務(wù)管理及可視化模塊65
- 6.3 用戶(hù)操作流程65-66
- 6.4 在工具箱中使用推薦算法66-70
- 6.4.1 啟動(dòng)/配置Hadoop66-68
- 6.4.2 上傳數(shù)據(jù)集68-69
- 6.4.3 選擇算法/配置參數(shù)69
- 6.4.4 提交任務(wù)/獲取結(jié)果69-70
- 6.5 本章小結(jié)70-71
- 第七章 總結(jié)和展望71-73
- 7.1 總結(jié)71-72
- 7.2 展望72-73
- 參考文獻(xiàn)73-78
- 簡(jiǎn)歷與科研成果78-79
- 致謝79-80
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 徐義峰;徐云青;劉曉平;;一種基于時(shí)間序列性的推薦算法[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2006年10期
2 余小鵬;;一種基于多層關(guān)聯(lián)規(guī)則的推薦算法研究[J];計(jì)算機(jī)應(yīng)用;2007年06期
3 張海玉;劉志都;楊彩;賈松浩;;基于頁(yè)面聚類(lèi)的推薦算法的改進(jìn)[J];計(jì)算機(jī)應(yīng)用與軟件;2008年09期
4 張立燕;;一種基于用戶(hù)事務(wù)模式的推薦算法[J];福建電腦;2009年03期
5 王晗;夏自謙;;基于蟻群算法和瀏覽路徑的推薦算法研究[J];中國(guó)科技信息;2009年07期
6 周珊丹;周興社;王海鵬;倪紅波;張桂英;苗強(qiáng);;智能博物館環(huán)境下的個(gè)性化推薦算法[J];計(jì)算機(jī)工程與應(yīng)用;2010年19期
7 王文;;個(gè)性化推薦算法研究[J];電腦知識(shí)與技術(shù);2010年16期
8 張愷;秦亮曦;寧朝波;李文閣;;改進(jìn)評(píng)價(jià)估計(jì)的混合推薦算法研究[J];微計(jì)算機(jī)信息;2010年36期
9 夏秀峰;代沁;叢麗暉;;用戶(hù)顯意識(shí)下的多重態(tài)度個(gè)性化推薦算法[J];計(jì)算機(jī)工程與應(yīng)用;2011年16期
10 楊博;趙鵬飛;;推薦算法綜述[J];山西大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年03期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條
1 王韜丞;羅喜軍;杜小勇;;基于層次的推薦:一種新的個(gè)性化推薦算法[A];第二十四屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2007年
2 唐燦;;基于模糊用戶(hù)心理模式的個(gè)性化推薦算法[A];2008年計(jì)算機(jī)應(yīng)用技術(shù)交流會(huì)論文集[C];2008年
3 秦國(guó);杜小勇;;基于用戶(hù)層次信息的協(xié)同推薦算法[A];第二十一屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2004年
4 周玉妮;鄭會(huì)頌;;基于瀏覽路徑選擇的蟻群推薦算法:用于移動(dòng)商務(wù)個(gè)性化推薦系統(tǒng)[A];社會(huì)經(jīng)濟(jì)發(fā)展轉(zhuǎn)型與系統(tǒng)工程——中國(guó)系統(tǒng)工程學(xué)會(huì)第17屆學(xué)術(shù)年會(huì)論文集[C];2012年
5 蘇日啟;胡皓;汪秉宏;;基于網(wǎng)絡(luò)的含時(shí)推薦算法[A];第五屆全國(guó)復(fù)雜網(wǎng)絡(luò)學(xué)術(shù)會(huì)議論文(摘要)匯集[C];2009年
6 梁莘q,
本文編號(hào):941173
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/941173.html