高效率用戶群體興趣趨勢發(fā)現(xiàn)的推薦方法研究
發(fā)布時間:2017-12-31 11:26
本文關鍵詞:高效率用戶群體興趣趨勢發(fā)現(xiàn)的推薦方法研究 出處:《山東大學》2016年博士論文 論文類型:學位論文
更多相關文章: 推薦系統(tǒng) 活躍度 信任度 隱私分享 高效率用戶群體
【摘要】:隨著互聯(lián)網(wǎng)及電子商務技術的迅速發(fā)展,用戶獲得的信息呈爆炸式的增長。電子商務在給用戶帶來豐富產品和快捷方便的同時,也帶來了諸如數(shù)據(jù)海量、品種多樣、真假難辨等問題的困擾,形成了所謂的“信息過載”,推薦系統(tǒng)就是為應對這一問題而產生的。與搜索引擎和門戶網(wǎng)站不同,推薦系統(tǒng)可以通過分析用戶與其他用戶的關聯(lián)和歷史消費等數(shù)據(jù),預測用戶尚未購買而符合用戶需求的商品,促進用戶從觀望向購買的轉化,有效提升用戶對電子商務網(wǎng)站的信賴并提高商品的銷量。然而,用戶數(shù)量和企業(yè)規(guī)模的不斷增長導致把握每個用戶的興趣趨勢十分困難,主要體現(xiàn)在三個方面。首先,多用戶群體中能夠積極參與系統(tǒng)交互的人數(shù)比較少,推薦方法難以將反映多用戶真實需求的數(shù)據(jù)準確地提取出來;其次,用戶對其他用戶和推薦系統(tǒng)的信任度比較低,不利于提取用戶的有價值數(shù)據(jù),妨礙對用戶個性化需求的了解和提升用戶對系統(tǒng)的滿意度;第三,推薦系統(tǒng)通過獲取用戶的個人數(shù)據(jù)來進行更加準確的推薦,這就產生了用戶對個人隱私的擔憂,導致用戶的分享行為變得保守,使推薦系統(tǒng)中隱私收集策略無法充分考慮所有用戶的信息分享偏好。這些問題的存在都不利于推薦系統(tǒng)充分了解用戶的個性化需求,降低了推薦系統(tǒng)的準確率和用戶的滿意度。本文以上述三個方面為研究目標,從高活躍度、高信任度、高隱私分享量共三類高效率用戶群體中預測和挖掘出用戶的興趣趨勢,進而做出更準確的個性化推薦,使用戶對電子商務中的推薦系統(tǒng)具有較高的信賴度和滿意度。本文的主要貢獻如下:(1)提出一種新的推薦算法Div-clustering,實現(xiàn)了電子商務中用戶實體的數(shù)據(jù)建模,在此基礎上利用改進的k-means聚類算法完成了高活躍度用戶的識別,以識別的高活躍度用戶群體的數(shù)據(jù)優(yōu)化了推薦項目,使推薦系統(tǒng)的推薦準確率更高。Div-clustering通過分析實體數(shù)據(jù)結構,建立了多用戶群體的圖模型,研究了高活躍度的用戶群體和推薦項目的特征。實驗中的論文數(shù)據(jù)主要從Elsevier和IEEE等學術網(wǎng)站通過網(wǎng)絡爬蟲Websphinx爬取,電影數(shù)據(jù)來自于兩個著名電影網(wǎng)站MovieLens和IMDB。實驗結果表明Div-clustering推薦算法在學術論文和電影的推薦中體現(xiàn)出更高的準確率,與傳統(tǒng)基于普通用戶的推薦算法相比,Div-clustering在實時評估和線下分析中表現(xiàn)出更好的穩(wěn)定性,也說明來源于高活躍度用戶群體數(shù)據(jù)產生的推薦比普通用戶群體數(shù)據(jù)產生的推薦,更容易被其它用戶接受和信任。(2)針對推薦系統(tǒng)中信任關聯(lián)的稀疏性問題,以高活躍度用戶群體更容易被信任為出發(fā)點,提出挖掘用戶間隱性信任關聯(lián)的推薦算法PointBurst,所挖掘的隱性信任關聯(lián)為用戶間已知的顯性信任關聯(lián)提供了有力的補充,緩解了協(xié)同過濾等傳統(tǒng)算法在電子商務環(huán)境中面臨的信任關聯(lián)稀疏性問題。PointBurst算法在多用戶圖模型的基礎上著重分析用戶間的信任關聯(lián)特征和關聯(lián)強度,優(yōu)化了同類型實體之間的分類和不同類型實體之間的關聯(lián)標記,從已經(jīng)識別為高活躍度用戶群體中,進一步挖掘高信任度的用戶群體和隱性的信任關聯(lián),最終利用已知的顯性信任關聯(lián)和挖掘的隱性信任關聯(lián)共同作為推薦系統(tǒng)的輸入而生成推薦項目。通過在del.icio.us, Myspace和MovieLens等數(shù)據(jù)集中分別運行PointBurst算法和傳統(tǒng)推薦算法進行比較,結果表明PointBurst算法產生的推薦項目更加準確和穩(wěn)定。(3)在用戶的隱私分享量與信任關聯(lián)強度成正比的發(fā)現(xiàn)基礎上,提出一種基于用戶隱私分享因素的學習模型ISBP,探索用戶在信任關聯(lián)中分享個人隱私的潛在因素,識別出高隱私分享量的用戶群體,使推薦系統(tǒng)可以通過收集該用戶群體的數(shù)據(jù)而增加推薦的準確率。ISBP在近期有關隱私分享的研究中歸納了影響用戶在各類電子商務場景中的潛在因素,制定了因素假設,改進了決策樹分類器、K近鄰分類器和樸素貝葉斯分類器,使其能夠檢測出影響用戶在信任關聯(lián)中隱私分享量的潛在因素。將ISBP學習模型運行在從多組實時數(shù)據(jù)平臺SOJUMP收集的數(shù)據(jù)集中后發(fā)現(xiàn),隱私分享量最高的用戶特征是年輕、非計算機類的群體,而與性別無關。在不引起所有用戶隱私擔憂的前提下,該類高隱私分享量的用戶群體可以分享比其它用戶群體更多的個人隱私信息,有利于推薦系統(tǒng)更好地了解用戶需求并產生更準確的推薦。(4)發(fā)現(xiàn)了導致高隱私分享量用戶群體流失的溢出現(xiàn)象,并提出了緩解溢出現(xiàn)象的決策支持機制DSS。所謂溢出現(xiàn)象是指,高隱私分享量的用戶群體在受到不良的隱私收集順序影響時,降低了后續(xù)的隱私分享量,使推薦系統(tǒng)不能夠持續(xù)地獲得用戶的準確信息,引起了推薦準確率的下降。在分析多個數(shù)據(jù)集后發(fā)現(xiàn),溢出現(xiàn)象是廣泛存在的,主要體現(xiàn)在向用戶收集高敏感度的隱私項目會使其后續(xù)的隱私分享量下降,而高隱私分享量用戶受到的負面影響最大。本文對k-means聚類算法進行改進,使其可以檢測出用戶改變隱私分享量時對應的心理認知因素的改變,證實了用戶的認知能力會引起溢出現(xiàn)象的產生,根本原因在于沒有足夠的儲備知識來支持自己的隱私分享決策。本文提出了為用戶提供隱私分享的決策支持機制,幫助用戶理解推薦的機理和增加用戶的儲備知識。實驗證明了決策支持機制可以將溢出現(xiàn)象的負面效果降低,保持高隱私分享量的用戶群體繼續(xù)為推薦系統(tǒng)提供充足的用戶信息,維持較高的推薦準確率
[Abstract]:With the rapid development of Internet and e - commerce technology , the information obtained by users is exploding .
【學位授予單位】:山東大學
【學位級別】:博士
【學位授予年份】:2016
【分類號】:TP391.3
,
本文編號:1359573
本文鏈接:http://www.sikaile.net/shoufeilunwen/xxkjbs/1359573.html
最近更新
教材專著