協(xié)同過濾中數(shù)據(jù)稀疏問題與推薦實(shí)時(shí)性的研究
本文關(guān)鍵詞:協(xié)同過濾中數(shù)據(jù)稀疏問題與推薦實(shí)時(shí)性的研究,由筆耕文化傳播整理發(fā)布。
【摘要】:數(shù)據(jù)爆炸的現(xiàn)今使得推薦系統(tǒng)技術(shù)變得越來越熱門,越來越重要,幾乎所有的電子商務(wù)網(wǎng)站以及部分門戶網(wǎng)站,甚至是搜索引擎都有推薦系統(tǒng)相關(guān)技術(shù)的身影?偨Y(jié)其中的原因,一是在唾手可得的海量信息里,人們所期望獲得的卻是其中極小的一部分;二是人們期望獲得的信息里有一些潛在的偏好,利用這些偏好可以做更多的事情。推薦系統(tǒng)的發(fā)展非常迅速,它分為協(xié)同過濾,基于知識(shí)的推薦,混合推薦等等,而各種類別的推薦算法下又有很多成熟的技術(shù)。協(xié)同過濾一直是這其中的研究最多的技術(shù),同時(shí)也是在電子商務(wù)有著廣泛應(yīng)用的技術(shù)之一。典型的協(xié)同過濾,通過維護(hù)一個(gè)評(píng)分者—物品評(píng)分矩陣,計(jì)算相似度確定近鄰來產(chǎn)生推薦。不幸的是,這種算法的性能隨著用戶和商品的增加會(huì)產(chǎn)生很多問題:高維度,高稀疏度。此二者對(duì)于該技術(shù)在電子商務(wù)網(wǎng)站的應(yīng)用產(chǎn)生巨大挑戰(zhàn)。本文著眼于此,提出或改進(jìn)了若干方法,以解決數(shù)據(jù)稀疏問題和推薦實(shí)時(shí)性。對(duì)于數(shù)據(jù)稀疏問題,主要對(duì)外部信息做適當(dāng)提取,計(jì)算其Jaccard相似度產(chǎn)生預(yù)測(cè)值,并將預(yù)測(cè)值有節(jié)制地填充至測(cè)試集,以此來提高傳統(tǒng)推薦技術(shù)的準(zhǔn)確性。具體的,評(píng)分外的信息,如:用戶的年齡、職業(yè),物品的類別等,通過Jaccard相似度做初步調(diào)整,再與經(jīng)典協(xié)同過濾得到的最近鄰相似性進(jìn)行加權(quán),通過多組具體的實(shí)驗(yàn),確定了較為理想的權(quán)重系數(shù)。在這樣權(quán)重下,我們得到的結(jié)果相對(duì)基準(zhǔn)實(shí)驗(yàn)有了一些提高。對(duì)于實(shí)時(shí)性的解決,我們引入聚類中的簇代表點(diǎn)技術(shù)(CURE,Clustering Using Representatives),主要是將搜尋所有用戶空間問題轉(zhuǎn)變?yōu)樗阉鞔卮睃c(diǎn)的集合中的近鄰問題,從而減少了近鄰搜尋空間的規(guī)模,以提高實(shí)時(shí)性。解決這一問題的關(guān)鍵,亦或是本文的核心工作,在于簇代表點(diǎn)的計(jì)算上。通過對(duì)前人所提算法的研究,我們進(jìn)行了適當(dāng)?shù)男薷?通過平行實(shí)驗(yàn)對(duì)比,我們修改的算法得到的最終結(jié)果相對(duì)較好。
【關(guān)鍵詞】:CURE 推薦系統(tǒng) Movielens 協(xié)同過濾
【學(xué)位授予單位】:蘭州大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.3
【目錄】:
- 中文摘要3-4
- Abstract4-9
- 第一章 引言9-14
- 1.1 研究背景及意義9-10
- 1.2 研究現(xiàn)狀10-12
- 1.3 本文的研究?jī)?nèi)容12-13
- 1.4 本文的組織結(jié)構(gòu)13-14
- 第二章 相關(guān)理論及技術(shù)綜述14-22
- 2.1 推薦系統(tǒng)14-18
- 2.1.1 推薦算法14-15
- 2.1.2 相似性度量15-16
- 2.1.3 推薦評(píng)估16-17
- 2.1.4 存在的問題17-18
- 2.2 聚類18-21
- 2.2.1 聚類分析的類型18-19
- 2.2.2 K-均值聚類19-20
- 2.2.3 DBSCAN算法20-21
- 2.3 Mahout21-22
- 第三章 協(xié)同過濾數(shù)據(jù)稀疏問題的研究22-31
- 3.1 數(shù)據(jù)稀疏問題及解決方法的選擇22-23
- 3.2 基于相似度加權(quán)融合的數(shù)據(jù)填充(DPFS)23-25
- 3.3 實(shí)驗(yàn)過程及結(jié)果25-30
- 3.3.1 數(shù)據(jù)集25-26
- 3.3.2 概念分層26-27
- 3.3.3 相似度加權(quán)求和27-28
- 3.3.4 實(shí)驗(yàn)結(jié)果分析28-30
- 3.4 本章小結(jié)30-31
- 第四章 協(xié)同過濾推薦實(shí)時(shí)性問題的研究31-57
- 4.1 推薦實(shí)時(shí)性問題及解決方法的選擇31-33
- 4.2 基于聚類簇代表點(diǎn)的協(xié)同過濾(CFRC)33-42
- 4.2.1 算法的詳述34-41
- 4.2.2 算法的目標(biāo)及評(píng)估41-42
- 4.3 實(shí)驗(yàn)過程42-48
- 4.3.1 數(shù)據(jù)的抽樣42-44
- 4.3.2 產(chǎn)生簇、確定簇代表點(diǎn)44-47
- 4.3.3 產(chǎn)生推薦47
- 4.3.4 計(jì)算MAE47-48
- 4.3.5 實(shí)驗(yàn)小結(jié)48
- 4.4 實(shí)驗(yàn)結(jié)果與討論48-53
- 4.4.1 簇的個(gè)數(shù)49-50
- 4.4.2 閾值 β50-51
- 4.4.3 近鄰個(gè)數(shù)51-52
- 4.4.4 簇代表點(diǎn)52-53
- 4.4.5 小結(jié)53
- 4.5 基于模糊聚類簇代表點(diǎn)的協(xié)同過濾(CFRFC)53-55
- 4.5.1 模糊K均值聚類54-55
- 4.5.2 實(shí)驗(yàn)結(jié)果及分析55
- 4.6 本章小結(jié)55-57
- 第五章 總結(jié)與展望57-60
- 5.1 總結(jié)57-58
- 5.2 展望58-60
- 參考文獻(xiàn)60-64
- 在學(xué)期間的研究成果64-65
- 致謝65
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 楊風(fēng)召;;一種基于特征表的協(xié)同過濾算法[J];計(jì)算機(jī)工程與應(yīng)用;2007年06期
2 王嵐;翟正軍;;基于時(shí)間加權(quán)的協(xié)同過濾算法[J];計(jì)算機(jī)應(yīng)用;2007年09期
3 曾子明;張李義;;基于多屬性決策和協(xié)同過濾的智能導(dǎo)購(gòu)系統(tǒng)[J];武漢大學(xué)學(xué)報(bào)(工學(xué)版);2008年02期
4 張富國(guó);;用戶多興趣下基于信任的協(xié)同過濾算法研究[J];小型微型計(jì)算機(jī)系統(tǒng);2008年08期
5 侯翠琴;焦李成;張文革;;一種壓縮稀疏用戶評(píng)分矩陣的協(xié)同過濾算法[J];西安電子科技大學(xué)學(xué)報(bào);2009年04期
6 廖新考;;基于用戶特征和項(xiàng)目屬性的混合協(xié)同過濾推薦[J];福建電腦;2010年07期
7 沈磊;周一民;李舟軍;;基于心理學(xué)模型的協(xié)同過濾推薦方法[J];計(jì)算機(jī)工程;2010年20期
8 徐紅;彭黎;郭艾寅;徐云劍;;基于用戶多興趣的協(xié)同過濾策略改進(jìn)研究[J];計(jì)算機(jī)技術(shù)與發(fā)展;2011年04期
9 焦晨斌;王世卿;;基于模型填充的混合協(xié)同過濾算法[J];微計(jì)算機(jī)信息;2011年11期
10 鄭婕;鮑海琴;;基于協(xié)同過濾推薦技術(shù)的個(gè)性化網(wǎng)絡(luò)教學(xué)平臺(tái)研究[J];科技風(fēng);2012年06期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條
1 沈杰峰;杜亞軍;唐俊;;一種基于項(xiàng)目分類的協(xié)同過濾算法[A];第二十二屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2005年
2 周軍鋒;湯顯;郭景峰;;一種優(yōu)化的協(xié)同過濾推薦算法[A];第二十一屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2004年
3 董全德;;基于雙信息源的協(xié)同過濾算法研究[A];全國(guó)第20屆計(jì)算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議(CACIS·2009)暨全國(guó)第1屆安全關(guān)鍵技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議論文集(上冊(cè))[C];2009年
4 張光衛(wèi);康建初;李鶴松;劉常昱;李德毅;;面向場(chǎng)景的協(xié)同過濾推薦算法[A];中國(guó)系統(tǒng)仿真學(xué)會(huì)第五次全國(guó)會(huì)員代表大會(huì)暨2006年全國(guó)學(xué)術(shù)年會(huì)論文集[C];2006年
5 李建國(guó);姚良超;湯庸;郭歡;;基于認(rèn)知度的協(xié)同過濾推薦算法[A];第26屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(B輯)[C];2009年
6 王明文;陶紅亮;熊小勇;;雙向聚類迭代的協(xié)同過濾推薦算法[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
7 胡必云;李舟軍;王君;;基于心理測(cè)量學(xué)的協(xié)同過濾相似度方法(英文)[A];NDBC2010第27屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(B輯)[C];2010年
8 林麗冰;師瑞峰;周一民;李月雷;;基于雙聚類的協(xié)同過濾推薦算法[A];2008'中國(guó)信息技術(shù)與應(yīng)用學(xué)術(shù)論壇論文集(一)[C];2008年
9 羅喜軍;王韜丞;杜小勇;劉紅巖;何軍;;基于類別的推薦——一種解決協(xié)同推薦中冷啟動(dòng)問題的方法[A];第二十四屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2007年
10 黃創(chuàng)光;印鑒;汪靜;劉玉葆;王甲海;;不確定近鄰的協(xié)同過濾推薦算法[A];NDBC2010第27屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集A輯一[C];2010年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 李聰;電子商務(wù)推薦系統(tǒng)中協(xié)同過濾瓶頸問題研究[D];合肥工業(yè)大學(xué);2009年
2 郭艷紅;推薦系統(tǒng)的協(xié)同過濾算法與應(yīng)用研究[D];大連理工大學(xué);2008年
3 羅恒;基于協(xié)同過濾視角的受限玻爾茲曼機(jī)研究[D];上海交通大學(xué);2011年
4 薛福亮;電子商務(wù)協(xié)同過濾推薦質(zhì)量影響因素及其改進(jìn)機(jī)制研究[D];天津大學(xué);2012年
5 高e,
本文編號(hào):372526
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/372526.html