基于聚類的協(xié)同過濾推薦算法研究
本文關(guān)鍵詞:基于聚類的協(xié)同過濾推薦算法研究
更多相關(guān)文章: 云模型 二叉樹 協(xié)同過濾 聚類算法 Spark
【摘要】:隨著Internet和移動終端快速發(fā)展和迅速普及,互聯(lián)網(wǎng)數(shù)據(jù)呈爆炸性地增長,出現(xiàn)了“信息過載”問題。如何在海量數(shù)據(jù)里找到用戶真正感興趣的信息并將其推薦給用戶成為了業(yè)界研究的熱點。推薦系統(tǒng)能幫助用戶挖掘海量數(shù)據(jù)里深層次潛在的信息,幫助用戶快速獲取需要的內(nèi)容,從而被廣泛應(yīng)用。協(xié)同過濾是當(dāng)前較成功的推薦算法之一,其簡單的模型概念和實現(xiàn)過程備受大型企業(yè)青睞。但是,協(xié)同過濾也存在著冷啟動、數(shù)據(jù)稀疏、計算效率以及系統(tǒng)可擴(kuò)展性等方面的問題。針對協(xié)同過濾存在的冷啟動和數(shù)據(jù)稀疏問題,本文引入李德毅院士提出的云模型概念。云模型屬于不確定人工智能領(lǐng)域,主要是將多維向量映射至三維向量,使用期望、熵和超熵等數(shù)學(xué)特征進(jìn)行量化,這也使得問題從局部擴(kuò)展到全局,從而降低數(shù)據(jù)稀疏和冷啟動帶來的負(fù)面影響。另外,本文結(jié)合云模型提出一種改進(jìn)的相似度計算模型,該計算模型可以更好地描述用戶(項目)間的相似性。最后,在計算云特征時,還考慮用戶的偏好因素,如時間因素、評分因素等。針對協(xié)同過濾存在的系統(tǒng)計算效率、可擴(kuò)展性問題,本文提出一種基于二叉樹的聚類算法。協(xié)同過濾計算效率低下的原因是在計算最近鄰時,需計算目標(biāo)用戶與所有用戶的相似性,從而獲得與目標(biāo)用戶最相似的用戶集。因此使用聚類算法減少近鄰比較次數(shù)成為研究熱點。K-Means算法不僅受限于初始中心和K值的設(shè)定,而且還存在用戶不能同歸屬于多類別等方面的問題,故本文提出一種改進(jìn)聚類算法。其主要是將數(shù)據(jù)結(jié)構(gòu)二叉樹和聚類算法K-Means相結(jié)合,形成一種新的層次聚類算法。最后,本文將基于二叉樹的聚類算法和云模型相融合,形成一種基于聚類的改進(jìn)推薦算法。在計算過程中由于結(jié)點之間的無關(guān)聯(lián)性,本文引入基于內(nèi)存的分布式計算框架Spark,并將本文算法在該平臺上并行實現(xiàn)。經(jīng)由實驗證明,本文算法不僅可提升準(zhǔn)確性,還能夠通過并行化從而提高系統(tǒng)可擴(kuò)展性。本文在模擬現(xiàn)實集群環(huán)境下,對提出的基于聚類的協(xié)同過濾算法進(jìn)行測試,主要是用于評估推薦算法的穩(wěn)定性、準(zhǔn)確性以及響應(yīng)時間,為該推薦算法進(jìn)行了比較科學(xué)有效的評估。對比實驗結(jié)果發(fā)現(xiàn),本文提出的基于聚類的協(xié)同過濾算法在穩(wěn)定性、精確性、高效性以及可擴(kuò)展性等方面均表現(xiàn)優(yōu)異,滿足算法要求。
【關(guān)鍵詞】:云模型 二叉樹 協(xié)同過濾 聚類算法 Spark
【學(xué)位授予單位】:廣東工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP391.3
【目錄】:
- 摘要4-5
- ABSTRACT5-13
- 第一章 緒論13-19
- 1.1 課題背景13
- 1.2 國內(nèi)外研究現(xiàn)狀13-15
- 1.3 研究意義15
- 1.4 研究內(nèi)容和創(chuàng)新點15-17
- 1.5 論文結(jié)構(gòu)及內(nèi)容安排17-19
- 第二章 相關(guān)概念與技術(shù)19-25
- 2.1 推薦系統(tǒng)19-20
- 2.1.1 協(xié)同過濾算法20
- 2.2 聚類分析20-21
- 2.2.1 K-Means算法21
- 2.3 相似度計算模型21-22
- 2.4 存在問題22-24
- 2.4.1 協(xié)同過濾存在的問題22-23
- 2.4.2 K-Means算法存在的問題23-24
- 2.5 本章小結(jié)24-25
- 第三章 基于云模型的推薦算法25-31
- 3.1 云模型25-26
- 3.1.1 云模型概念25
- 3.1.2 云模型定義25-26
- 3.2 修正的相似度計算模型26-27
- 3.3 偏好因素27-28
- 3.3.1 時間因素27-28
- 3.3.2 評分因素28
- 3.4 構(gòu)造云特征28-29
- 3.5 云模型應(yīng)用29-30
- 3.6 本章小結(jié)30-31
- 第四章 基于二叉樹的聚類算法31-37
- 4.1 二叉樹31
- 4.2 K-FBT算法31-33
- 4.3 簇內(nèi)凝聚度33-34
- 4.4 層次遍歷34-36
- 4.5 本章小結(jié)36-37
- 第五章 基于云模型與K-FBT的協(xié)同過濾算法37-47
- 5.1 算法流程37-38
- 5.2 預(yù)測評分38
- 5.3 合并結(jié)果38-40
- 5.4 最終評分40-41
- 5.5 分布式實現(xiàn)41-44
- 5.5.1 Spark41-42
- 5.5.2 CF-CMBT并行實現(xiàn)42-44
- 5.6 關(guān)鍵技術(shù)44-45
- 5.7 本章小結(jié)45-47
- 第六章 實驗設(shè)計與結(jié)果分析47-55
- 6.1 實驗環(huán)境47
- 6.2 實驗數(shù)據(jù)47
- 6.3 實驗評估指標(biāo)47-48
- 6.4 實驗設(shè)計與實驗結(jié)果48-52
- 6.5 實驗分析52-53
- 6.6 本章小結(jié)53-55
- 總結(jié)與展望55-57
- 參考文獻(xiàn)57-61
- 攻讀學(xué)位期間發(fā)表的論文61-65
- 致謝65
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 陳平華;陳傳瑜;;基于滿二叉樹的二分K-means聚類并行推薦算法[J];計算機(jī)工程與科學(xué);2015年08期
2 陳平華;陳傳瑜;;基于云模型的用戶雙重聚類推薦算法[J];計算機(jī)工程與科學(xué);2015年07期
3 胡俊;胡賢德;程家興;;基于Spark的大數(shù)據(jù)混合計算模型[J];計算機(jī)系統(tǒng)應(yīng)用;2015年04期
4 余南華;李蘭芳;王玲;楊洪耕;譚丹;;基于云模型的諧波電流異常檢測[J];中國電機(jī)工程學(xué)報;2014年25期
5 李克潮;凌霄娥;;云模型與用戶聚類的個性化推薦[J];計算機(jī)應(yīng)用;2013年10期
6 馮智明;蘇一丹;覃華;鄧海;;基于遺傳算法的聚類與協(xié)同過濾組合推薦算法[J];計算機(jī)技術(shù)與發(fā)展;2014年01期
7 尹航;常桂然;王興偉;;采用聚類算法優(yōu)化的K近鄰協(xié)同過濾算法[J];小型微型計算機(jī)系統(tǒng);2013年04期
8 馮勇;李軍平;徐紅艷;黨曉婉;;基于社會網(wǎng)絡(luò)分析的協(xié)同推薦方法改進(jìn)[J];計算機(jī)應(yīng)用;2013年03期
9 張仕斌;許春香;;基于云模型的信任評估方法研究[J];計算機(jī)學(xué)報;2013年02期
10 王曉堤;桑婧;;基于云模型的時間修正協(xié)同過濾推薦算法[J];計算機(jī)工程與科學(xué);2012年12期
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 余善紅;基于社會網(wǎng)絡(luò)的個性化推薦系統(tǒng)關(guān)鍵技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2011年
,本文編號:779043
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/779043.html