推薦系統(tǒng)及眾包模式中的若干問(wèn)題研究
發(fā)布時(shí)間:2018-04-16 23:28
本文選題:信息過(guò)載 + 推薦系統(tǒng)。 參考:《北京郵電大學(xué)》2017年博士論文
【摘要】:近年來(lái),隨著計(jì)算機(jī)網(wǎng)絡(luò)、移動(dòng)互聯(lián)網(wǎng)的廣泛普及與發(fā)展,全球每年產(chǎn)生的數(shù)據(jù)量爆炸式增長(zhǎng),海量數(shù)據(jù)蘊(yùn)藏著巨大的價(jià)值。然而在數(shù)據(jù)量爆炸式增長(zhǎng)的另一面,隱藏著數(shù)據(jù)價(jià)值密度越來(lái)越低的問(wèn)題。海量數(shù)據(jù)信息在給人們生活帶來(lái)便利的同時(shí),也將人們從信息匱乏的時(shí)代帶進(jìn)了信息過(guò)載的時(shí)代。高效的數(shù)據(jù)挖掘,是應(yīng)對(duì)信息過(guò)載難題的關(guān)鍵。通常,互聯(lián)網(wǎng)用戶獲取信息可以通過(guò)被動(dòng)和主動(dòng)兩種途徑,這也是互聯(lián)網(wǎng)信息供給的兩種途徑。一種情況是用戶被動(dòng)的接收互聯(lián)網(wǎng)或統(tǒng)一發(fā)布或個(gè)性化推送的信息;另一種情況是,用戶主動(dòng)使用互聯(lián)網(wǎng)獲取信息。為解決信息過(guò)載難題,本文從上述兩個(gè)角度,選取了兩種典型互聯(lián)網(wǎng)信息供給方法展開(kāi)研究:推薦系統(tǒng)和眾包模式。本文主要工作和創(chuàng)新如下:1.針對(duì)推薦系統(tǒng)中的直接類(lèi)型用戶反饋數(shù)據(jù)—評(píng)分信息,本文提出了一種上下文信息參與建模的概率張量分解推薦算法,破解信息過(guò)載表現(xiàn)出的信息供求不匹配問(wèn)題。目前,在個(gè)性化推薦系統(tǒng)中,上下文信息正在受到越來(lái)越多的重視。然而,目前大多數(shù)基于二維矩陣分解的推薦算法,不能將上下文信息與評(píng)分信息、社交網(wǎng)絡(luò)信息和物品內(nèi)容等信息同時(shí)進(jìn)行建模,忽略了其中某些因素間的相互影響。本文將上述數(shù)據(jù)信息看成一個(gè)用戶-物品-上下文的評(píng)分張量,將概率矩陣分解推廣至概率張量分解。之后,本文進(jìn)一步將概率張量分解模型擴(kuò)展為上下文信息參與建模的概率張量分解算法,該算法系統(tǒng)的將上下文信息、社交網(wǎng)絡(luò)信息、文本內(nèi)容信息和評(píng)分信息進(jìn)行融合,從而達(dá)到提高推薦系統(tǒng)性能的目的。在兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,證明了方法的有效性和魯棒性。2.針對(duì)推薦系統(tǒng)中的間接類(lèi)型用戶反饋數(shù)據(jù)—簽到頻率信息,本文提出了兩種興趣點(diǎn)推薦的時(shí)空話題模型,破解如何利用用戶間接反饋信息解決信息供求不匹配的難題。常見(jiàn)的評(píng)分類(lèi)推薦系統(tǒng),評(píng)分?jǐn)?shù)值大小直接表明了用戶對(duì)物品的喜好程度。而在用戶地點(diǎn)簽到問(wèn)題中,用戶對(duì)于某個(gè)地點(diǎn)的偏好程度,是通過(guò)訪問(wèn)次數(shù)的不斷累加間接體現(xiàn)的,因此,簽到頻率屬于間接反饋類(lèi)型的數(shù)據(jù),數(shù)據(jù)的取值范圍相比于評(píng)分信息,不固定且開(kāi)放。通常,簽到數(shù)據(jù)包括用戶唯一標(biāo)識(shí)ID、文本評(píng)論、簽到時(shí)間以及地理位置等信息。為了能夠綜合使用上述信息為用戶推薦興趣點(diǎn),首先,本文使用LDA模型分析了興趣點(diǎn)和用戶相關(guān)文本文檔的主題分布情況,以評(píng)價(jià)興趣點(diǎn)對(duì)用戶的主題吸引程度,使用地理位置信息衡量用戶就近訪問(wèn)的概率,并以指數(shù)形式對(duì)主題吸引度和地理吸引度對(duì)用戶移動(dòng)行為的影響進(jìn)行建模;其次,本文使用時(shí)間信息將原始的用戶簽到數(shù)據(jù)進(jìn)行分類(lèi),這樣,同一類(lèi)別下的用戶簽到數(shù)據(jù)都發(fā)生在相似時(shí)間場(chǎng)景下,更易從中發(fā)現(xiàn)規(guī)律;在上述基礎(chǔ)上,以概率矩陣分解為框架,通過(guò)為隱特征矩陣分別假設(shè)高斯先驗(yàn)分布和伽馬先驗(yàn)分布,本文提出了兩種興趣點(diǎn)推薦的時(shí)空話題模型,目的在于探索先驗(yàn)分布假設(shè)對(duì)于推薦性能的影響。相關(guān)實(shí)驗(yàn)證明了本文興趣點(diǎn)推薦模型的有效性。3.針對(duì)眾包模式獲取信息質(zhì)量無(wú)保證的問(wèn)題,本文提出了一種開(kāi)放型眾包任務(wù)的答案整合方案,解決信息過(guò)載表現(xiàn)出的信息質(zhì)量無(wú)保證問(wèn)題。由于參與眾包任務(wù)的工人可靠程度不同,眾包平臺(tái)會(huì)對(duì)收集到的答案進(jìn)行答案整合以確保眾包服務(wù)質(zhì)量。目前,由于開(kāi)放式任務(wù)類(lèi)型多樣,且沒(méi)有備選答案,答案空間開(kāi)放,開(kāi)放式任務(wù)的答案整合仍處于探索研究階段。本文認(rèn)為工人答案的可信程度由任務(wù)和工人兩方面因素共同決定。任務(wù)本身的困難度很大程度上決定了自身答案空間的情況(答案類(lèi)別,各類(lèi)答案占比),本文使用中國(guó)式餐館過(guò)程對(duì)任務(wù)收集答案的過(guò)程進(jìn)行建模,并用中國(guó)式餐館過(guò)程的集中度參數(shù)衡量任務(wù)本身的困難度。綜合考慮任務(wù)困難度,工人的可靠度和工人給出的答案,本文提出了一種答案整合方案,并設(shè)計(jì)了 EM算法同時(shí)估算工人的可靠度和任務(wù)的最佳答案。由于EM算法比較耗時(shí),本文使用熵概念來(lái)評(píng)估任務(wù)答案空間的混亂度是否趨于穩(wěn)定,當(dāng)任務(wù)空間熵穩(wěn)定時(shí),再調(diào)用EM算法,這樣既可以節(jié)約頻繁調(diào)用EM算法的時(shí)間,也可以節(jié)約有償任務(wù)征集答案的成本。真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文提出方案能夠在征集較少答案的情況下,實(shí)現(xiàn)較好的答案整合效果。
[Abstract]:In recent years , with the widespread popularization and development of computer networks and mobile Internet , the data volume generated annually in the world is exploding , and the mass data is of great value . This paper proposes an answer integration scheme of open - type crowdsourcing task .
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2017
【分類(lèi)號(hào)】:TP391.3
【參考文獻(xiàn)】
相關(guān)期刊論文 前4條
1 方興東;;G20互聯(lián)網(wǎng)研究發(fā)展報(bào)告——綜合篇[J];汕頭大學(xué)學(xué)報(bào)(人文社會(huì)科學(xué)版);2016年06期
2 馮劍紅;李國(guó)良;馮建華;;眾包技術(shù)研究綜述[J];計(jì)算機(jī)學(xué)報(bào);2015年09期
3 張志強(qiáng);逄居升;謝曉芹;周永;;眾包質(zhì)量控制策略及評(píng)估算法研究[J];計(jì)算機(jī)學(xué)報(bào);2013年08期
4 鄧愛(ài)林,朱揚(yáng)勇,施伯樂(lè);基于項(xiàng)目評(píng)分預(yù)測(cè)的協(xié)同過(guò)濾推薦算法[J];軟件學(xué)報(bào);2003年09期
相關(guān)博士學(xué)位論文 前1條
1 胡昭陽(yáng);眾包科學(xué):網(wǎng)絡(luò)傳播語(yǔ)境下的公眾參與創(chuàng)新[D];中國(guó)科學(xué)技術(shù)大學(xué);2015年
,本文編號(hào):1761069
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/1761069.html
最近更新
教材專著