天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

基于聚類(lèi)和監(jiān)督學(xué)習(xí)模型的協(xié)同過(guò)濾推薦算法研究

發(fā)布時(shí)間:2020-08-11 20:26
【摘要】:快速發(fā)展的互聯(lián)網(wǎng)逐漸成為信息傳遞和商品交易的重要平臺(tái),成為大多數(shù)人生活中不可缺少的一部分。然而,互聯(lián)網(wǎng)信息的快速膨脹,給用戶帶來(lái)豐富多樣的信息同時(shí),也對(duì)用戶搜索信息的能力和精力提出了挑戰(zhàn)。推薦系統(tǒng)作為一種信息過(guò)濾的重要途徑,已經(jīng)在互聯(lián)網(wǎng)各個(gè)領(lǐng)域中得到廣泛的應(yīng)用。協(xié)同過(guò)濾算法是在推薦系統(tǒng)中應(yīng)用最成功的推薦技術(shù)之一,在理論和實(shí)踐上都取得長(zhǎng)足的發(fā)展。然而,隨著推薦系統(tǒng)中用戶和項(xiàng)目的劇增,傳統(tǒng)基于內(nèi)存的協(xié)同過(guò)濾算法由于對(duì)計(jì)算資源的開(kāi)銷(xiāo)過(guò)大而面臨可擴(kuò)展性問(wèn)題。如何把計(jì)算資源開(kāi)銷(xiāo)控制在可接受的范圍內(nèi)并保證推薦的效率和質(zhì)量是目前業(yè)界研究的熱點(diǎn)問(wèn)題。針對(duì)可擴(kuò)展性問(wèn)題,本文在協(xié)同過(guò)濾推薦中引入聚類(lèi)技術(shù)和監(jiān)督學(xué)習(xí)技術(shù),并提出三種協(xié)同過(guò)濾推薦算法。主要工作分為以下三部分:傳統(tǒng)基于內(nèi)存的協(xié)同過(guò)濾算法利用用戶-項(xiàng)目評(píng)分矩陣的一行(列)表示一個(gè)用戶(項(xiàng)目),在用戶和項(xiàng)目數(shù)以百萬(wàn)計(jì)的推薦系統(tǒng)中,維數(shù)過(guò)高的用戶和項(xiàng)目向量導(dǎo)致推薦效率的下降。本文針對(duì)用戶和項(xiàng)目降維,分別提出DRU和DRI算法。DRU(DRI)通過(guò)二分k-means聚類(lèi)技術(shù)對(duì)用戶(項(xiàng)目)進(jìn)行聚類(lèi),并計(jì)算用戶(項(xiàng)目)對(duì)用戶簇(項(xiàng)目簇)的隸屬度,每個(gè)用戶(項(xiàng)目)由其對(duì)應(yīng)的隸屬度向量表示。由于隸屬度向量的維數(shù)通常遠(yuǎn)低于評(píng)分向量,因此基于內(nèi)存的協(xié)同過(guò)濾算法的用戶或項(xiàng)目間相似度的計(jì)算量大幅減少,由此提高了在線推薦的效率。此外,本文還提出DRUI算法,用于集成DRU和DRI的預(yù)測(cè)結(jié)果。實(shí)驗(yàn)結(jié)果表明,提出的算法在線推薦效率遠(yuǎn)高于傳統(tǒng)基于內(nèi)存的協(xié)同過(guò)濾算法(UCF和ICF);此外,盡管在評(píng)分預(yù)測(cè)準(zhǔn)確度上DRU和DRI比UCF和ICF遜色,但是經(jīng)過(guò)DRUI模型的集成后比它們更優(yōu)越。傳統(tǒng)基于內(nèi)存的協(xié)同過(guò)濾算法預(yù)測(cè)評(píng)分時(shí)需要搜索目標(biāo)用戶(或項(xiàng)目)的最臨近用戶(或項(xiàng)目),在用戶和項(xiàng)目的規(guī)模不斷擴(kuò)大的情況下,這種推薦算法的在線推薦效率面臨挑戰(zhàn)。于是本文引入可以離線訓(xùn)練的隨機(jī)森林模型,提出CRF算法。CRF先通過(guò)聚類(lèi)得到用戶和項(xiàng)目的隸屬度向量(此過(guò)程與DRU和DRI一樣),然后結(jié)合用戶-項(xiàng)目評(píng)分矩陣構(gòu)造監(jiān)督學(xué)習(xí)模型的訓(xùn)練數(shù)據(jù)集,并訓(xùn)練隨機(jī)森林模型,在線推薦時(shí)利用離線訓(xùn)練的模型進(jìn)行評(píng)分預(yù)測(cè)。實(shí)驗(yàn)結(jié)果表明,CRF在線推薦效率遠(yuǎn)高于基于內(nèi)存的協(xié)同過(guò)濾算法;另外,其評(píng)分預(yù)測(cè)準(zhǔn)確度和分類(lèi)準(zhǔn)確度在大部分情況下較優(yōu)越。針對(duì)可擴(kuò)展性問(wèn)題,本文引入可增量學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型,提出CFBP_R回歸模型、CFBP_C分類(lèi)模型和CFBP_SW權(quán)重共享模型。CFBP_R和CFBP_C模型分別將評(píng)分預(yù)測(cè)問(wèn)題視為回歸問(wèn)題和分類(lèi)問(wèn)題;CFBP_SW是一個(gè)基于CFBP_C改進(jìn)得到的模型,引入權(quán)重共享機(jī)制,大幅減少模型的參數(shù)量。模型每個(gè)輸入樣本的結(jié)構(gòu)為(用戶ID,項(xiàng)目ID,評(píng)分)三元組,這是推薦系統(tǒng)評(píng)分?jǐn)?shù)據(jù)最常見(jiàn)的存儲(chǔ)格式,即在應(yīng)用CFBP_R、CFBP_C和CFBP_SW前幾乎不需要對(duì)原始評(píng)分?jǐn)?shù)據(jù)做任何預(yù)處理(比如轉(zhuǎn)換成評(píng)分矩陣);訓(xùn)練模型時(shí)可以分批讀取磁盤(pán)中的數(shù)據(jù),因此模型對(duì)內(nèi)存的要求較低,新增的評(píng)分?jǐn)?shù)據(jù)也可以增量?jī)?yōu)化模型參數(shù),而不必重新訓(xùn)練模型。此外,針對(duì)需要對(duì)評(píng)分進(jìn)行編碼處理的分類(lèi)模型CFBP_C,本文一方面應(yīng)用常用的one-hot編碼,另一方面針對(duì)評(píng)分預(yù)測(cè)問(wèn)題的特點(diǎn)提出一種新的編碼(線性編碼),于是得到模型的兩個(gè)版本CFBP_C(one-hot)和CFBP_C(linear)。實(shí)驗(yàn)結(jié)果表明,提出的算法在評(píng)分預(yù)測(cè)準(zhǔn)確度、分類(lèi)準(zhǔn)確度和在線推薦效率上均比傳統(tǒng)基于內(nèi)存的協(xié)同過(guò)濾算法(UCF和ICF)優(yōu)越;提出的算法對(duì)數(shù)據(jù)稀疏性的敏感程度較低,能夠一定程度上緩解數(shù)據(jù)稀疏性問(wèn)題;提出的線性編碼方式能夠明顯提高評(píng)分預(yù)測(cè)準(zhǔn)確度;權(quán)重共享模型CFBP_SW在參數(shù)量遠(yuǎn)比CFBP_C小的情況下,評(píng)分預(yù)測(cè)準(zhǔn)確度與之相當(dāng)。
【學(xué)位授予單位】:廣東工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類(lèi)號(hào)】:F724.6
【圖文】:

推薦算法,協(xié)同過(guò)濾,基本假設(shè),相似度


圖 2-1 基于用戶的協(xié)同過(guò)濾推薦算法igure 2-1 User-based collaborative filtering recommendation algorithm推薦算法的基本假設(shè)是,相似的用戶有相似的偏好。如果相同的偏好,那么可以認(rèn)為這兩個(gè)用戶很相似,如圖 2-1 所共同喜歡項(xiàng)目 3 和項(xiàng)目 4,于是基于用戶的推薦算法向用戶目(項(xiàng)目 1)。基于用戶的推薦技術(shù)利用目標(biāo)用戶a的最鄰近所以基于用戶的推薦技術(shù)的關(guān)鍵在于如何衡量用戶間的相近用戶的評(píng)分,其中,每個(gè)用戶由用戶-項(xiàng)目評(píng)分矩陣中的常用于衡量用戶間相似度的方式主要有以下兩種:相似度a和u 的評(píng)分向量分別為 和u,那么用戶a和u 的余弦相似度( )ai uiCOS i Ir r a u

協(xié)同過(guò)濾,推薦算法,相似度,向量


圖 2-2 基于項(xiàng)目的協(xié)同過(guò)濾推薦算法gure 2-2 Item-based collaborative filtering recommendation algori相似度與用戶間的相似度的計(jì)算方式類(lèi)似,只需把用戶向量于項(xiàng)目的協(xié)同過(guò)濾推薦算法常用的評(píng)分預(yù)測(cè)方式為( )( )( )( )sim ,im , sajj N iNiaijr i jirj 示項(xiàng)目i在目標(biāo)用戶已評(píng)分的項(xiàng)目中的若干個(gè)最鄰近項(xiàng)目集合內(nèi)存的協(xié)同過(guò)濾算法的最鄰近搜索是一個(gè)在線的過(guò)程,所以長(zhǎng),在線推薦效率難以滿足推薦系統(tǒng)的實(shí)時(shí)性要求,推薦系統(tǒng)是很多學(xué)者提出基于模型的推薦技術(shù),通過(guò)離線建立模型以減rwar 等人[15]提出基于二分 k-means 用戶聚類(lèi)的協(xié)同過(guò)濾算法離線將用戶劃分到不同的集合中(如圖 2-3 所示),同一集合

協(xié)同過(guò)濾,二分,算法


圖 2-3 基于二分 k-means 聚類(lèi)的協(xié)同過(guò)濾算法ollaborative filtering algorithm based on bisect k-m薦技術(shù)技術(shù)和協(xié)同過(guò)濾推薦技術(shù)需要大量的瀏覽、購(gòu)數(shù)據(jù)有限的時(shí)候,這些技術(shù)的推薦質(zhì)量會(huì)下降。汽車(chē)等高價(jià)值的產(chǎn)品,所以用戶的購(gòu)買(mǎi)記錄或評(píng)啟動(dòng)(ColdStart)問(wèn)題。另外,對(duì)于更新速度快,會(huì)影響推薦的效果。系統(tǒng)可以緩解以上提到的問(wèn)題,因?yàn)椴恍枰獨(dú)v于知識(shí)的推薦系統(tǒng)明確地征求用戶對(duì)項(xiàng)目的需領(lǐng)域(比如電子產(chǎn)品、汽車(chē)、房子等),用戶通知識(shí)的限制無(wú)法理解商品的屬性如何與需求匹硬盤(pán)、內(nèi)存、顯存等能滿足他們的什么需求;

【參考文獻(xiàn)】

相關(guān)期刊論文 前2條

1 孫天昊;黎安能;李明;朱慶生;;基于Hadoop分布式改進(jìn)聚類(lèi)協(xié)同過(guò)濾推薦算法研究[J];計(jì)算機(jī)工程與應(yīng)用;2015年15期

2 朱郁筱;呂琳媛;;推薦系統(tǒng)評(píng)價(jià)指標(biāo)綜述[J];電子科技大學(xué)學(xué)報(bào);2012年02期



本文編號(hào):2789527

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/2789527.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶5a719***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com