基于多維信息環(huán)境數(shù)據(jù)的推薦系統(tǒng)算法模型的研究與實現(xiàn)
發(fā)布時間:2019-12-04 02:52
【摘要】:移動互聯(lián)網(wǎng)近年來的迅速發(fā)展促使推薦系統(tǒng)技術(shù)在學(xué)術(shù)界和工業(yè)界都受到空前的關(guān)注。推薦算法的研究不再僅僅停留在推薦精度、指標(biāo)權(quán)衡、冷啟動等經(jīng)典推薦問題,移動互聯(lián)網(wǎng)環(huán)境的高度稀疏數(shù)據(jù)、大規(guī)模運算性能等障礙,多維信息的綜合利用,以及推薦模型的可控性和適用性同樣成為研究焦點。本課題首先針對目前主流的協(xié)同過濾技術(shù)(CF)進行研究,設(shè)計了雙重去中心化相關(guān)性距離,一種基于相似度距離的關(guān)系矩陣計算方法。該算法在數(shù)據(jù)敏感度和模型適應(yīng)性上優(yōu)于傳統(tǒng)的調(diào)整后余弦距離和皮爾森距離。繼而,針對協(xié)同過濾技術(shù)遷移至移動互聯(lián)網(wǎng)時面臨的數(shù)據(jù)稀疏和運算性能低下兩種問題,提出了解決方案。該解決方案包括1)利用數(shù)據(jù)分布規(guī)律設(shè)計基于影響力的計算優(yōu)化方法,和2)基于CF-I和CF-U算法中較為成熟的最近鄰思想對本不適用的Slope-One模型設(shè)計近似k最近鄰的Slope-One改進算法。本課題發(fā)現(xiàn)電影評分平臺MovieLens和移動應(yīng)用市場AppDL的用戶行為存在一致規(guī)律:用戶往往在一段時期內(nèi)具有較為穩(wěn)定的興趣偏好,經(jīng)常在數(shù)周之內(nèi)保持較為固定的關(guān)注焦點;谠撘(guī)律以及上述協(xié)同過濾模型的改進算法,通過引入物品分類數(shù)據(jù),設(shè)計了基于多維信息環(huán)境下的多分類列表調(diào)整算法的“嵌套型”推薦模型。該模型具有以下幾點優(yōu)勢:1)可以作用于絕大多數(shù)推薦算法并提高推薦性能;2)提供可控的列表調(diào)整過程并產(chǎn)生傾向于不同指標(biāo)提升的多種推薦模式;3)提出通過歷史評估數(shù)據(jù)計算統(tǒng)一評估標(biāo)準(zhǔn)的需求量化方法;4)自動學(xué)習(xí)適合特定推薦目標(biāo)的最優(yōu)化推薦模式;5)支持多分類和多標(biāo)簽組合分類的數(shù)據(jù)場景并提供更為精確的模糊分類結(jié)果;6)模型的附加開銷低于0(uilog2 i)。
【圖文】:
隨后以不同的時間點做切割,觀察在兩個月之中隨著時間的推移各個組內(nèi)的逡逑用戶累計關(guān)注的游戲分類數(shù)(動作類、飛行類、策略類等總共17種分類)的變逡逑化情況。圖2-2邋(a)?(e)展示了邋5組用戶分別在不同時間切割點時,有多少用逡逑戶關(guān)注了多少游戲分類(至少1個至多17個)的統(tǒng)計數(shù)值。橫坐標(biāo)為,隨著時逡逑間的推移所發(fā)生的交互記錄數(shù)占兩個月記錄總量的比值,從50%以5%為增量增逡逑至75%,縱坐標(biāo)為用戶數(shù)量。例如在圖2-2邋(a)中橫坐標(biāo)為50°/。時的藍色柱形,,逡逑表示在A組用戶中當(dāng)交互記錄累計到總量(兩個月)的50%時,仍只保持關(guān)注1逡逑個游戲分類的用戶數(shù)只有不到20人。逡逑可以很明顯的發(fā)現(xiàn),百分之百的用戶在這兩個月內(nèi)的關(guān)注焦點不超過8個分逡逑類,對于絕大部分用戶當(dāng)數(shù)據(jù)量不超過60%時,用戶的關(guān)注焦點都集中在5個分逡逑類以內(nèi),而當(dāng)數(shù)據(jù)量不超過50%時則可限制在4個分類之內(nèi)。更有趣的是,當(dāng)用逡逑戶的交互頻率與交互次數(shù)上升時
Pearson邋Correlation邋Similarity邋=邐.邐==:邐(2.9)逡逑Jlluel](Ru,x-Rx)邋JZuev(Ru.y ̄Ry)逡逑其中Ru,;c指代用戶》對物品x的評分情況,5。表示用戶w對所有產(chǎn)生過打分逡逑行為的物品的評分均值,而豆;^表示物品X所接受到的所有評分的均值水平。其實逡逑不難理解,假設(shè)現(xiàn)在存在一個用戶A對物品1和物品2的評分分別為逡逑1分和2分,類似的另一位用戶B對物品1和物品2的評分RuRw/A別為2逡逑分和1分,如圖2-3所示。那么圖中zee的余弦值便是一般的余弦相似距離,所以逡逑不難看出只有當(dāng)兩個評分向量之間的夾角越小時他們之間的余弦相似距離才會逡逑越大,反之亦然。而余弦相似距離的值域是[0,1],接近1時表示有較高的相似程逡逑度和接近0時表示評分向量的相似程度極低。值得一提的是,圖中的綠色虛線部逡逑分便是這兩個評分向量的歐氏距離(Euclidean邋Distance)。然而,可以很直觀的逡逑看出只有當(dāng)兩個評分向量完全相等時才能取得最大的歐氏相似度,這顯然是不合逡逑理的。同時,歐氏距離對于打分趨勢是完全不敏感的,這是余弦相似距離相對于逡逑歐氏距離的優(yōu)勢所在。這也導(dǎo)致歐氏相似距離的適用場景相當(dāng)局限,而目前很少逡逑在實際推薦模型得到應(yīng)用。逡逑
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP391.3
本文編號:2569427
【圖文】:
隨后以不同的時間點做切割,觀察在兩個月之中隨著時間的推移各個組內(nèi)的逡逑用戶累計關(guān)注的游戲分類數(shù)(動作類、飛行類、策略類等總共17種分類)的變逡逑化情況。圖2-2邋(a)?(e)展示了邋5組用戶分別在不同時間切割點時,有多少用逡逑戶關(guān)注了多少游戲分類(至少1個至多17個)的統(tǒng)計數(shù)值。橫坐標(biāo)為,隨著時逡逑間的推移所發(fā)生的交互記錄數(shù)占兩個月記錄總量的比值,從50%以5%為增量增逡逑至75%,縱坐標(biāo)為用戶數(shù)量。例如在圖2-2邋(a)中橫坐標(biāo)為50°/。時的藍色柱形,,逡逑表示在A組用戶中當(dāng)交互記錄累計到總量(兩個月)的50%時,仍只保持關(guān)注1逡逑個游戲分類的用戶數(shù)只有不到20人。逡逑可以很明顯的發(fā)現(xiàn),百分之百的用戶在這兩個月內(nèi)的關(guān)注焦點不超過8個分逡逑類,對于絕大部分用戶當(dāng)數(shù)據(jù)量不超過60%時,用戶的關(guān)注焦點都集中在5個分逡逑類以內(nèi),而當(dāng)數(shù)據(jù)量不超過50%時則可限制在4個分類之內(nèi)。更有趣的是,當(dāng)用逡逑戶的交互頻率與交互次數(shù)上升時
Pearson邋Correlation邋Similarity邋=邐.邐==:邐(2.9)逡逑Jlluel](Ru,x-Rx)邋JZuev(Ru.y ̄Ry)逡逑其中Ru,;c指代用戶》對物品x的評分情況,5。表示用戶w對所有產(chǎn)生過打分逡逑行為的物品的評分均值,而豆;^表示物品X所接受到的所有評分的均值水平。其實逡逑不難理解,假設(shè)現(xiàn)在存在一個用戶A對物品1和物品2的評分分別為逡逑1分和2分,類似的另一位用戶B對物品1和物品2的評分RuRw/A別為2逡逑分和1分,如圖2-3所示。那么圖中zee的余弦值便是一般的余弦相似距離,所以逡逑不難看出只有當(dāng)兩個評分向量之間的夾角越小時他們之間的余弦相似距離才會逡逑越大,反之亦然。而余弦相似距離的值域是[0,1],接近1時表示有較高的相似程逡逑度和接近0時表示評分向量的相似程度極低。值得一提的是,圖中的綠色虛線部逡逑分便是這兩個評分向量的歐氏距離(Euclidean邋Distance)。然而,可以很直觀的逡逑看出只有當(dāng)兩個評分向量完全相等時才能取得最大的歐氏相似度,這顯然是不合逡逑理的。同時,歐氏距離對于打分趨勢是完全不敏感的,這是余弦相似距離相對于逡逑歐氏距離的優(yōu)勢所在。這也導(dǎo)致歐氏相似距離的適用場景相當(dāng)局限,而目前很少逡逑在實際推薦模型得到應(yīng)用。逡逑
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP391.3
【參考文獻】
相關(guān)期刊論文 前1條
1 羅辛;歐陽元新;熊璋;袁滿;;通過相似度支持度優(yōu)化基于K近鄰的協(xié)同過濾算法[J];計算機學(xué)報;2010年08期
本文編號:2569427
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/2569427.html
最近更新
教材專著