協(xié)同過(guò)濾推薦算法的關(guān)鍵性問(wèn)題研究
發(fā)布時(shí)間:2018-01-04 22:02
本文關(guān)鍵詞:協(xié)同過(guò)濾推薦算法的關(guān)鍵性問(wèn)題研究 出處:《山東大學(xué)》2016年博士論文 論文類(lèi)型:學(xué)位論文
更多相關(guān)文章: 推薦系統(tǒng) 協(xié)同過(guò)濾 數(shù)據(jù)稀疏性 可擴(kuò)展性 Top-n推薦 聚類(lèi)技術(shù)
【摘要】:近年來(lái),隨著信息技術(shù)和Web 2.0的發(fā)展,信息的爆炸式增長(zhǎng)造成了信息過(guò)載(Information Overload)的現(xiàn)象。推薦系統(tǒng)(Recommender Systems)是克服信息過(guò)載問(wèn)題的有效工具,它通過(guò)分析用戶(hù)的歷史行為挖掘用戶(hù)興趣,從而主動(dòng)給用戶(hù)推薦能夠滿(mǎn)足他們興趣和需求的信息。目前,推薦系統(tǒng)已經(jīng)廣泛應(yīng)用于各大在線網(wǎng)站并取得了巨大的商業(yè)價(jià)值,例如Amazon的商品推薦、Netflix和YouTube的視頻推薦。在學(xué)術(shù)界,很多不同類(lèi)型的推薦算法被提出,其中,協(xié)同過(guò)濾(Collaborative Filtering, CF)憑借其優(yōu)勢(shì)成為最受歡迎的一類(lèi)推薦算法。盡管協(xié)同過(guò)濾在個(gè)性化推薦方面取得較大成功,但本身存在的一些關(guān)鍵問(wèn)題制約著其進(jìn)一步發(fā)展。本文以國(guó)家自然科學(xué)基金項(xiàng)目為依托,結(jié)合已有工作,針對(duì)協(xié)同過(guò)濾推薦算法存在的數(shù)據(jù)稀疏性、可擴(kuò)展性和Top-n推薦這三個(gè)關(guān)鍵問(wèn)題展開(kāi)了系列研究工作。論文的主要工作和創(chuàng)新性可以歸納為以下幾個(gè)方面:(1)本文提出了一種結(jié)合Linked Data的協(xié)同過(guò)濾推薦算法。由于推薦系統(tǒng)中的數(shù)據(jù)稀疏性問(wèn)題,傳統(tǒng)的基于矩陣分解的CF推薦算法將不能準(zhǔn)確地學(xué)習(xí)到用戶(hù)和項(xiàng)目(item)的潛在特征。本文利用Linked Data中的高質(zhì)量數(shù)據(jù),來(lái)緩解數(shù)據(jù)稀疏性問(wèn)題對(duì)矩陣分解推薦算法的影響。我們利用Linked Data中關(guān)于項(xiàng)目的顯式結(jié)構(gòu)化屬性信息定義項(xiàng)目之間的相似度,并提出了兩種項(xiàng)目相似度敏感的矩陣分解推薦算法。我們假設(shè)項(xiàng)目顯式屬性比較相似的項(xiàng)目在矩陣分解之后得到的潛在特征向量也應(yīng)該是近似的,因此打破了矩陣分解中項(xiàng)目的獨(dú)立性。實(shí)驗(yàn)結(jié)果表明,本文的推薦算法能夠很好地應(yīng)對(duì)數(shù)據(jù)稀疏性問(wèn)題,尤其對(duì)只有極少打分信息的項(xiàng)目來(lái)說(shuō)仍然能夠做出高準(zhǔn)確度的推薦。(2)本文提出了一種基于用戶(hù)組的二部圖推薦算法。該方法從二部圖推薦算法存在的數(shù)據(jù)稀疏性和可擴(kuò)展性問(wèn)題出發(fā),將聚類(lèi)技術(shù)應(yīng)用到用戶(hù)聚類(lèi)中。具體來(lái)說(shuō),我們首先利用奇異值分解(SVD)將打分信息進(jìn)行降維獲得用戶(hù)的特征空間?紤]到用戶(hù)興趣的多樣性,我們使用模糊c-means聚類(lèi)算法將用戶(hù)劃分成多個(gè)用戶(hù)組,每個(gè)用戶(hù)組代表有相似興趣的用戶(hù)群體,其中每個(gè)用戶(hù)可以屬于多個(gè)用戶(hù)組;谟脩(hù)組將原始的二部圖拆分為多個(gè)比較稠密的并且規(guī)模更小的子圖,在子圖上的推薦大大減少了計(jì)算量。實(shí)驗(yàn)表明,與以往以損失推薦準(zhǔn)確度來(lái)提高推薦效率的方法不同,本文的方法在提高可擴(kuò)展性的同時(shí)保證了推薦的準(zhǔn)確度。(3)本文提出了一種基于信息融合的混合多組聯(lián)合聚類(lèi)推薦方法。在推薦系統(tǒng)領(lǐng)域,以往的聚類(lèi)方法只利用了用戶(hù)和項(xiàng)目的打分信息來(lái)將用戶(hù)或者項(xiàng)目聚成多個(gè)組。但是,由于打分?jǐn)?shù)據(jù)的稀疏性不能保證聚類(lèi)結(jié)果的有效性。為了解決上述問(wèn)題,我們?nèi)诤狭擞脩?hù)-項(xiàng)目打分信息、用戶(hù)-用戶(hù)社交關(guān)系和項(xiàng)目-項(xiàng)目關(guān)聯(lián)信息并基于三種類(lèi)型信息定義了一種新的混合多組聯(lián)合聚類(lèi)方法。該聚類(lèi)方法能夠?qū)⒂脩?hù)和項(xiàng)目同時(shí)聚類(lèi),并且用戶(hù)和項(xiàng)目可以出現(xiàn)在多個(gè)組中。然后,基于聚類(lèi)結(jié)果將原始打分矩陣劃分成多個(gè)子矩陣。在子矩陣中利用CF推薦算法產(chǎn)生中間推薦結(jié)果。最后,我們將多個(gè)子矩陣的中間推薦結(jié)果進(jìn)行聚合產(chǎn)生最終推薦列表。實(shí)驗(yàn)結(jié)果表明基于我們的聚類(lèi)方法比以往一些聚類(lèi)方法能夠產(chǎn)生更高的推薦準(zhǔn)確率,同時(shí)緩解了數(shù)據(jù)稀疏性和可擴(kuò)展性問(wèn)題。(4)本文提出了一種基于Listwise排序的協(xié)同過(guò)濾推薦算法。該算法針對(duì)Top-n推薦問(wèn)題,省略了評(píng)分預(yù)測(cè)步驟,直接預(yù)測(cè)項(xiàng)目排序。首先,我們利用Plackett-Luce模型將用戶(hù)打分轉(zhuǎn)化為項(xiàng)目集合上排列的概率分布,基于Kullback-Leibler (KL)距離衡量每對(duì)用戶(hù)之間對(duì)項(xiàng)目排序的相似度。然后,基于用戶(hù)相似度定義加權(quán)的交叉熵?fù)p失函數(shù),通過(guò)梯度下降方法最小化損失函數(shù)預(yù)測(cè)目標(biāo)用戶(hù)的項(xiàng)目排序,并產(chǎn)生Top-n推薦。為了提高算法的實(shí)用性和運(yùn)算效率,我們隨后提出了算法在計(jì)算用戶(hù)相似度時(shí)的增量更新方法,大大縮減了運(yùn)算時(shí)間。通過(guò)在三個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)表明,我們的方法比基于Pairwise排序的協(xié)同過(guò)濾推薦算法具有更高的推薦效率,而且與當(dāng)前主流推薦算法相比具有更高的Top-n推薦準(zhǔn)確度。
[Abstract]:In recent years , with the development of information technology and Web 2.0 , the explosion of information has caused the phenomenon of information overload . In order to solve the above - mentioned problems , we combine user - project scoring information , user - user social relationship and project - project association information .
【學(xué)位授予單位】:山東大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2016
【分類(lèi)號(hào)】:TP391.3
,
本文編號(hào):1380265
本文鏈接:http://www.sikaile.net/shoufeilunwen/xxkjbs/1380265.html
最近更新
教材專(zhuān)著