電子商務(wù)環(huán)境下基于實時信息的單類協(xié)同過濾算法研究
1 引言
1.1.1研究背景
在現(xiàn)代生活中,企業(yè)形式日趨多樣。在眾多的企業(yè)中,零售企業(yè)呈現(xiàn)出飛速發(fā)展之勢,但同時也面臨著諸多的挑戰(zhàn)。例如評估用戶對商品的感興趣程度,以及從市場的角度準確評價商品等等,這些挑戰(zhàn)在交揚過程中往往會轉(zhuǎn)化為如何找到用戶與商品間的最佳搭配。近年來,很多零售企業(yè)開始涉足電子商務(wù)領(lǐng)域,幵展網(wǎng)絡(luò)零售,并且發(fā)展速度很快。據(jù)第三方電子商務(wù)研究機構(gòu)中國電子商務(wù)研究中心(100EC.cn)發(fā)布的《2013年度中國網(wǎng)絡(luò)零售市場數(shù)據(jù)監(jiān)測報告》報告顯示:截止到2013年底,中國網(wǎng)絡(luò)零售市場交易規(guī)模達18851億元,同比增長42.8%。報告還預(yù)測,2014年全國網(wǎng)絡(luò)零售市場交易額有望達到27861億元。截止到2013年底,中國網(wǎng)絡(luò)零售市場交易規(guī)模占當年社會消費品零售總額的8.04%,而這一數(shù)據(jù)比例在2012年僅為6.3%,預(yù)計這一比例還將保持擴大態(tài)勢,到2014年有望達到9.8%。總體來看,這些數(shù)據(jù)的背后意味著電子商務(wù)已經(jīng)開始改變零售業(yè)的格局,為零售業(yè)的蓬勃發(fā)展注入了生命活力。
電子商務(wù)推薦系統(tǒng)的實現(xiàn)原理是:通過對用戶購物交易記錄及用戶對物品評分、評價、用戶的歷史訪問日志等相關(guān)信息的處理(評價所需的基礎(chǔ)數(shù)據(jù)),發(fā)現(xiàn)并挖掘用戶的購物偏好,然后向其推薦相似的其他物品。電子商務(wù)推薦系統(tǒng)的作用主要表現(xiàn)在三方面:(1)可以拓展新用戶,將電子商務(wù)網(wǎng)站的瀏覽者、觀察者等潛在型用戶,最終轉(zhuǎn)化為實際的購買者;(2)能夠有效保留老用戶,為老用戶繼續(xù)提供良好的服務(wù)體驗,提高其對電子商務(wù)網(wǎng)站用戶的忠誠度,增加用戶的黏性;(3)推薦多樣化的相關(guān)物品,增加銷售成功概率,提高電子商務(wù)網(wǎng)站的交叉銷售能力。另外,有研究表明,成功有效的電子商務(wù)推薦系統(tǒng)能夠提高網(wǎng)站的銷售額8%~10%[1]。因此,通過電子商務(wù)推薦系統(tǒng)進行網(wǎng)絡(luò)零售是電子商務(wù)活動中極其重要的一環(huán)。
......
當前社會,互聯(lián)網(wǎng)技術(shù)的蓬勃發(fā)展使得信息發(fā)布和傳播的速度越來越快,方式越來越便捷,但不斷增長和豐富的海量數(shù)據(jù)卻帶來了嚴重的信息過載和信息冗余問題。面對龐雜的數(shù)據(jù),人們越來越難以找到自己所需要的信息,這種情況下,當用戶不明確自己的需求或者需要更符合個人喜好的物品時,僅僅依賴傳統(tǒng)搜索已不能完全滿足用戶的需求,無差別的信息呈現(xiàn)使得用戶較難尋找到自己喜歡的產(chǎn)品信息,互動性較差,用戶體驗也較差。解決上述問題的一條非常有效的途徑是采用推薦系統(tǒng)!巴扑]”在《現(xiàn)代漢語詞典》中的釋義為:介紹合適的人或事物希望被任用或接受。推薦可以分為大眾化推薦和個性化推薦。大眾化推薦指的是根據(jù)大眾行為,對每個用戶都給出同樣的推薦。大眾化推薦所提供的可以是靜態(tài)的由系統(tǒng)管理員人工設(shè)定的物品或其他信息,也可以是基于系統(tǒng)所有用戶的反饋統(tǒng)計所計算出的當前階段比較流行的物品或其他信息。不同于大眾化推薦,個性化推薦是根據(jù)用戶的興趣特征及購買行為,向用戶推薦其感興趣的物品或其他信息。個性化推薦針對不同的用戶,根據(jù)其口味和偏好提供更加精確的推薦。這種推薦要求系統(tǒng)對需推薦的內(nèi)容和用戶的特征要了解,或者基于社會化網(wǎng)絡(luò),通過尋找與當前用戶相同偏好的用戶以實現(xiàn)推薦。在一般情況下,大多數(shù)人們討論的推薦均屬于個性化推薦。個性化推薦是更加智能的信息發(fā)現(xiàn)過程。而個性化推薦系統(tǒng)中應(yīng)用范圍最廣、推薦效果最明顯的就是電子商務(wù)推薦系統(tǒng)。
1.2.1電子商務(wù)推薦系統(tǒng)
電子商務(wù)推薦系統(tǒng)一方面可以起到購物助手的作用,另一方面它還是建立在數(shù)據(jù)挖掘基礎(chǔ)上的智能服務(wù)平臺,可以幫助商家實現(xiàn)利益最大化。當前的電子商務(wù)推薦系統(tǒng)中,一般都是在不同的場景下使用不同的推薦策略,從而達到最好的推薦效果,很少有僅僅采用一個推薦策略的推薦系統(tǒng)。例如亞馬遜(Amazon)的推薦系統(tǒng),采用的就是將基于用戶本身歷史購買記錄數(shù)據(jù)的推薦,以及將大眾喜好的當下較為流行的物品在不同區(qū)域推薦給用戶,這樣可以使得用戶在全方位的推薦中找到自己真正感興趣的物品。簡而言之,對電子商務(wù)零售網(wǎng)站而言,電子商務(wù)推薦系統(tǒng)是一種提升其整體營銷性能的個性化推薦工具。其原理為:從微觀角度看,電子商務(wù)推薦系統(tǒng)通過采用個性化推薦技術(shù),調(diào)節(jié)網(wǎng)站整體的流量結(jié)構(gòu),增加物品的曝光數(shù)以及用戶對物品頁的訪問量(glance view),增加用戶的平均訪問步長,降低其跳出率。更進一步,該系統(tǒng)會影響物品的轉(zhuǎn)化率、動銷數(shù)以及銷售額,這樣就可以從根本上提升電子商務(wù)零售網(wǎng)站的整體營銷性能。從宏觀角度看,電子商務(wù)推薦系統(tǒng)通過建立以用戶為中心的個性化的營銷策略,幫助使用者提升用戶的忠誠度,增加其粘性,在最恰當?shù)臅r機為用戶提供最急需的信息,讓用戶的購物體驗更加及時舒適。
......
2單類協(xié)同過濾的相關(guān)理論及方法
2.1.1協(xié)同過濾算法的原理
常見的獲取用戶偏好信息的來源主要分為兩類:顯式評分和隱式評分。每一個評分均表示為一個用戶一項目對。顯式評分是用戶明確表明偏好的信息,一般通過用戶對項目的直接評分來實現(xiàn)。隱式評分則認為用戶的行為會反映用戶的偏好特征,因此主要選擇的數(shù)據(jù)是用戶的行為,如點擊、收藏等。
推薦結(jié)果的表現(xiàn)形式一般可分為兩種:有序項目列表及預(yù)測評分。有序項目列表常采用的是Top-N推薦,為用戶提供N個最可能喜歡的項目,這與“熱門推薦”是有區(qū)別的,“熱門推薦”是大眾化的推薦,為每個用戶推薦內(nèi)容是一樣的,而Top-N推薦則是針對用戶的個性化的推薦,為不同的用戶推薦不同的物品或項目。預(yù)測評分則是推薦系統(tǒng)針對給定的項目提供一個目標用戶可能的預(yù)測評分值。例如,瀏覽電影時,系統(tǒng)通常會依據(jù)用戶特征,為一系列電影給予評分值,以供用戶參考。
基于內(nèi)存的協(xié)同過濾(Memory-based Collaborative Filtering),有時也稱之為基于鄰居的協(xié)同過濾(Neighbor-based Collaborative Filtering)(SCHAFER J B,1999,BEN J, 2001) [38-39]。該類算法通過采用用戶相似性統(tǒng)計的方法,進而對具有相似購物偏好的鄰居用戶進行判斷,獲得當前目標用戶的相似鄰居,然后再基于其鄰居的偏好進行推薦。
基于模型的協(xié)同過濾(Model-based Collaborative Filtering),該類算法在對用戶偏好預(yù)測之前,首先會根據(jù)用戶歷史訪問記錄等數(shù)據(jù)建立一個模型,然后依據(jù)該模型對用戶的偏好進行預(yù)測。在這類算法中,典型使用的技術(shù)包括:神經(jīng)網(wǎng)絡(luò)技術(shù)、潛在語義檢索(latent semantic indexing) (Huang et al, 2004) _以及貝葉斯網(wǎng)絡(luò)技術(shù)(Bayesi an networks )等。從另一角度,根據(jù)協(xié)同過濾的相關(guān)特征,協(xié)同過濾算法可分為基于用戶的協(xié)同過濾算法、基于項目的協(xié)同過濾算法。
基于項目的協(xié)同過濾算法(Item-based Collaborative Filtering)由 Sarwar[4i]教授于2001年提出,該算法先分別計算用戶已評價產(chǎn)品及未評價產(chǎn)品的相似性,將其作為權(quán)重,,然后通過加權(quán)計算已評價產(chǎn)品的評價值,得到未評價產(chǎn)品的評價值。在論文中Sarwar教授還指出了基于項目的協(xié)同過濾推薦算法所具有的優(yōu)勢,并且解決了協(xié)同過濾在之前研究中所遇到的問題;陧椖康膮f(xié)同過濾算法是通過目標項目與其他項目集合之間的相似性計算來產(chǎn)生推薦的,但它會存在如用戶對項目的評分過少容易忽略項目自身屬性的問題,這樣也會造成預(yù)測的精度不準確[42]。
總之,基于用戶和項目的協(xié)同過濾算法各有優(yōu)劣。基于用戶的算法可以實現(xiàn)跨類型的推薦,但受數(shù)據(jù)稀疏性影響較大;而基于項目的算法雖然受數(shù)據(jù)稀疏性影響較小,卻無法進行跨類型的推薦。Premm[43]教授(2002)通過對各種推薦算法重新梳理和審視,認為基于項目的協(xié)同過濾推薦算法其準確度與所采用的實驗規(guī)模數(shù)據(jù)相關(guān),在大多數(shù)情況下還是運用基于用戶的協(xié)同過濾推薦會好一些。
......
協(xié)同過濾算法在國內(nèi)外得到了廣泛研究,按處理的數(shù)據(jù)的不同主要可分為兩類:一類是顯示數(shù)據(jù),如:評分、評價等;另一類則是隱式數(shù)據(jù)。較顯示數(shù)據(jù)而言,隱式數(shù)據(jù)在現(xiàn)實世界中的存在會更普遍一些,例如用戶是否點擊過某個網(wǎng)頁,是否購買過某種物品。這類信息不需要獲取用戶對物品明確的喜好信息,因此更容易獲得。但這類數(shù)據(jù)中僅可以明確區(qū)分正例,負例是不確定的,因此,這類問題可以被稱為單類協(xié)同過濾(One Class Collaborative Filtering, OCCF) 問題。單類協(xié)同過濾所研究的數(shù)據(jù)集的用戶和項目之間缺乏或者完全沒有評分數(shù)據(jù),而只有布爾化的點擊數(shù)據(jù)(如對于新聞網(wǎng)站,用戶只有點擊與否的二值數(shù)據(jù);對視頻網(wǎng)站,用戶只有觀看與否的二值數(shù)據(jù),諸如此類的,都缺乏數(shù)值化的評分數(shù)據(jù))。單類協(xié)同過濾推薦就是通過分析這些隱式信息來針對特定用戶的偏好對推薦對象集按該用戶的喜好程度排序。盡管這類數(shù)據(jù)獲取容易,但其極度稀疏,無法輕易解釋,以用戶點擊網(wǎng)頁數(shù)據(jù)為例,這些數(shù)據(jù)中用戶點擊過的網(wǎng)頁構(gòu)成的數(shù)據(jù)可以解釋為正例,其余絕大部分數(shù)據(jù)是負例和漏掉的正例的混合,如何解決這些數(shù)據(jù)的稀疏性,如何對這些數(shù)據(jù)進行有效處理,是當前單類協(xié)同過濾問題研究的難點所在。
單類協(xié)同過濾推薦問題是一個研究較少的問題,基于單類協(xié)同過濾的方法的有效性依賴于對非標記的或缺失的數(shù)據(jù)集的處理和考慮,即,它的基本思想是構(gòu)造負例(消極數(shù)據(jù)集)。近年來,一些學者幵始關(guān)注消極數(shù)據(jù)集,基于頻數(shù)信息,如顧客數(shù)量,商品數(shù)量,商品的受歡迎程度等,應(yīng)用權(quán)重分配的矩陣因子分解技術(shù)對單類協(xié)同過濾問題進行相應(yīng)的研究。相對于協(xié)同過濾推薦問題,單類協(xié)同過濾推薦問題的研究較少。單類協(xié)同過濾問題一方面由于積極數(shù)據(jù)集(存在數(shù)據(jù)稀疏性問題)很少,而另一方面,其他的兩類數(shù)據(jù)集,消極和缺失數(shù)據(jù)集,又很容易混淆,因此研究較為困難。同時,也可以說明,在單類協(xié)同過濾推薦方面還有很大的研究空間,有待進一步的探索和深入。在綜合已有學者對單類協(xié)同過濾推薦問題的研究基礎(chǔ)上,可將常用的解決方法概括為以下幾種:
(1)在數(shù)據(jù)集中標注評分值的樣本,或是引入其他數(shù)據(jù)來源的評分,從而將其轉(zhuǎn)化為傳統(tǒng)的協(xié)同過濾問題。但這種方法通常是需要人工實現(xiàn)的,并且由于合理的新數(shù)據(jù)來源較為難找
(2)把所有的丟失數(shù)據(jù),即用戶沒有正面操作(如點擊、觀看)的例子當作負例(AMAN, All Missing Are Negative),然后通過協(xié)同過濾算法進行計算。這種方法較容易實現(xiàn)。在AMAN的前提下,前文所述的大多數(shù)傳統(tǒng)的協(xié)同過濾算法都能夠直接應(yīng)用。例如:在AMAN基礎(chǔ)上,運用奇異值分解(SVD)技術(shù)可實現(xiàn)基于矩陣分解的協(xié)同過濾算法,還可實現(xiàn)基于用戶相似度和項目相似度的協(xié)同過濾方法。
......
3.1問題分析...........................26
3.2單類協(xié)同過濾模型及公式.........28
3.3改進算法的依據(jù)..................30
4基于實時信息的單類協(xié)同過濾算法的仿真研究.........36
4.1數(shù)據(jù)集和評估標準..................36
4.1.1數(shù)據(jù)集選擇..................36
4.1.2推薦質(zhì)量的評估標準.........37
4.2運行方案設(shè)計..................37
5結(jié)論與展望..................45
5.1論文主要研究內(nèi)容總結(jié).........45
5.2論文的展望..................46
4基于實時信息的單類協(xié)同過濾算法的仿真研究
4.1.1數(shù)據(jù)集選擇
為分析和驗證本文提出的基于實時信息的單類協(xié)同過濾推薦算法的推薦效果,本章選取了一個被廣泛使用和認可的實驗數(shù)據(jù)集,設(shè)計合理可行的實驗過程和評估標準,通過簡單編程實現(xiàn)上述的推薦算法,并對其準確性——未評分項目預(yù)測結(jié)果的準確性進行了比較,以測試本文提出的基于實時信息的單類協(xié)同過濾推薦算法的合理性和有效性。本文實驗選用的數(shù)據(jù)集是MovieLens數(shù)據(jù)集,該數(shù)據(jù)集由Minnesota大學GroupLens Research項目組所收集。MovieLens站點建立于1997年,是一個基于Web的研究型推薦系統(tǒng),該系統(tǒng)一方面接收用戶對電影的評分,另一方面可為其提供電影推薦列表。目前,該Web站點已擁有超過70000名的用戶,超過5000部帶有評分的電影。電影評分是從1到5的整數(shù),數(shù)值越高,表示用戶對該電影的喜愛程度越高,未被評分的電影占到總體數(shù)據(jù)的大多數(shù),這也正體現(xiàn)了前文所述的數(shù)據(jù)稀疏性問題。
針對所有的評價,本文截取GroupLens研究組提供的MovieLens數(shù)據(jù)集的一部分,該部分數(shù)據(jù)的收集時間為1997年的9月到1998年的4月,共包含943個用戶和1682部電影,其中,每個用戶至少對20部電影有評分,共計100,000條評價記錄。這個數(shù)據(jù)集非常稀疏,其稀疏等級為:1-100,000/(943*1682)=6.305%,即僅6.305%的項有評分。為把該數(shù)據(jù)集轉(zhuǎn)換為隱式數(shù)據(jù)集,所有有評分的數(shù)據(jù)評分值均設(shè)為1,其他所有沒有評分的數(shù)據(jù)值設(shè)為0,這樣數(shù)據(jù)集就符合了單類協(xié)同過濾的基本要求。另外,為方便后文具體的試驗,選取了該部分數(shù)據(jù)的80%作為訓練集,剩余20%的數(shù)據(jù)為測試集。在訓練時采用訓練集中的數(shù)據(jù),得到推薦后用測試集中的數(shù)據(jù)進行測試,得到相關(guān)的數(shù)值,進而分析判斷推薦算法的優(yōu)劣。
在該數(shù)據(jù)集的數(shù)據(jù)庫中主要有6張數(shù)據(jù)表:Users (用戶)、movies (電影)、ratings (評分)、age (年齡)、genres (性別)和occupation (職業(yè))。其中,所推薦的電影主要包括以下種類:action (動作片)、adventure (冒險片)、animation (動畫片)、children's (兒童片)、comedy (喜劇片)、crime (犯罪片)、documentary (紀錄片)、drama (劇情片)、fantasy (幻想片)、Film-Noir (黑色片)、Horror (恐怖片)、Musial (音樂。ystery (神秘。omance (愛情片)、Sci-Fi (科幻片)、Thriller (驚悚片)、War (戰(zhàn)爭片)和Western (西部片)。
......
5結(jié)論與展望
在電子商務(wù)飛速發(fā)展的時代,一個擁有優(yōu)秀電子商務(wù)推薦系統(tǒng)的網(wǎng)站不僅能夠獲得使用者——用戶的喜愛,還能夠幫助企業(yè)或商家發(fā)掘用戶信息中的有用信息,從而改進其營銷推廣策略。電子商務(wù)推薦系統(tǒng)中除了大眾化的推薦技術(shù)職務(wù),更重要的是個性化的推薦方式,好的推薦技術(shù)可以讓電子商務(wù)網(wǎng)站實現(xiàn)好的個性化推薦效果,而協(xié)同過濾就是眾多技術(shù)中的佼佼者。在協(xié)同過濾領(lǐng)域有一類較為新穎的研究課題,即單類協(xié)同過濾,其對負例的處理方式在很大程度上能夠改善推薦效果。本文就單類協(xié)同過濾問題進行相應(yīng)的研究,由于單類協(xié)同過濾本身存在的問題較多,本文就其技術(shù)重點稀疏性問題及實時性問題,提出了一個綜合性的解決方法。所做工作總結(jié)如下:
(1)對電子商務(wù)推薦系統(tǒng)進行了簡要介紹,對其常用的推薦技術(shù)和算法進行了歸類和比較。在此基礎(chǔ)上,就其最重要的推薦技術(shù)——協(xié)同過濾進研究,分析了其基本原理和分類,明確在此研究領(lǐng)域所存在的不足:未考慮不能明確表示用戶偏好的數(shù)據(jù),未能將實時性因素中的物品生命周期因素考慮在內(nèi)。
(2)針對協(xié)同過濾推薦存在的問題,提出了本文的研究對象——單類協(xié)同過濾推薦。單類協(xié)同過濾推薦就是利用不能明確表示用戶偏好的數(shù)據(jù)進行的推薦算法。本文對其原理及技術(shù)重點進行了概述,在此基礎(chǔ)上,就其技術(shù)重點數(shù)據(jù)稀疏性問題和實時性問題進行了分析。
(3)通過采用不同的加權(quán)方式,引入實時信息,如用戶的歷史訪問(評估階段)和物品的投入市場信息(物品生命周期)等,就此信息分別構(gòu)造權(quán)重函數(shù),建立了基于實時信息的單類協(xié)同過濾推薦模型。
(4)對設(shè)計的基于實時信息的單類協(xié)同過濾模型進行了仿真研究:首先通過對數(shù)據(jù)集有評分值的項設(shè)為1,沒有評分值的項設(shè)為0,以此滿足單類協(xié)同過濾研究對象的特征。然后運用奇異值分解矩陣的方法對數(shù)據(jù)集進行處理,在一定程度上對龐大的矩陣進行降維,接著將該模型中的實時的以用戶為中心的加權(quán)算法及實時的以物品為中心的加權(quán)算法與已存在的基礎(chǔ)方法進行仿真對比。通過測試在不同的情況下:數(shù)據(jù)、變量確定;矩陣秩數(shù)目改變;不同交易頻率情況;迭代次數(shù)變化;物品生命周期的改變(在一定范圍內(nèi))等的推薦效果,證明本文中的基于實時信息的單類協(xié)同過濾算法要優(yōu)于其他基礎(chǔ)方法。
......
參考文獻(略)
本文編號:42943
本文鏈接:http://www.sikaile.net/wenshubaike/caipu/42943.html