基于多標(biāo)簽學(xué)習(xí)的社交網(wǎng)絡(luò)用戶人格預(yù)測(cè)方法研究
發(fā)布時(shí)間:2017-04-13 00:11
本文關(guān)鍵詞:基于多標(biāo)簽學(xué)習(xí)的社交網(wǎng)絡(luò)用戶人格預(yù)測(cè)方法研究,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著Internet的迅速普及,社交網(wǎng)絡(luò)開始在大眾生活中扮演重要的角色,人們通過社交網(wǎng)絡(luò)進(jìn)行交流互動(dòng)正在成為一種重要的溝通方式,借助網(wǎng)絡(luò)社交平臺(tái)發(fā)表觀點(diǎn)、聯(lián)系好友、討論公共話題等,社交網(wǎng)絡(luò)成為了現(xiàn)實(shí)社會(huì)的延伸。每時(shí)每刻都有大量用戶在公共社交網(wǎng)站(如Facebook)上頻繁活動(dòng),或?yàn)g覽信息,或更新狀態(tài),隨著用戶在社交網(wǎng)絡(luò)中的需求越來越多,如何提供個(gè)性化服務(wù)已經(jīng)成為網(wǎng)絡(luò)社交平臺(tái)智能化的研究熱點(diǎn),如好友推薦,商品推廣等。人格特質(zhì)作為影響用戶行為的重要因素之一,可對(duì)個(gè)性化服務(wù)質(zhì)量的提高產(chǎn)生重要的作用,對(duì)社交網(wǎng)絡(luò)用戶的人格進(jìn)行分析和預(yù)測(cè)具有廣闊的應(yīng)用前景。在人格心理學(xué)領(lǐng)域有多種不同的人格流派,其中,特質(zhì)流派給人格提供了一種相對(duì)科學(xué)可靠的分析和量化的可能。人格特質(zhì)流派目前最可靠、最主流的模型是大五人格模型,它從五個(gè)方面來描述一個(gè)人的人格,這五個(gè)維度分別為外向性、神經(jīng)質(zhì)或情緒穩(wěn)定性、宜人性或隨和性、盡責(zé)性以及開放性,大五人格模型認(rèn)為人格由多種性格特征所組成并且結(jié)構(gòu)相對(duì)穩(wěn)定。大五人格與人們?cè)谏钪械男袨橛嘘P(guān),同時(shí)也與網(wǎng)絡(luò)行為具有很強(qiáng)的相關(guān)性,可以利用網(wǎng)絡(luò)挖掘技術(shù),通過建立網(wǎng)絡(luò)行為特征與人格特質(zhì)之間的關(guān)系計(jì)算模型,來實(shí)現(xiàn)通過社交網(wǎng)絡(luò)信息對(duì)用戶的人格特質(zhì)進(jìn)行預(yù)測(cè)。近年來,對(duì)社交網(wǎng)絡(luò)用戶人格預(yù)測(cè)的相關(guān)研究開始出現(xiàn),相比于自陳量表的人格計(jì)算手段,利用網(wǎng)絡(luò)信息進(jìn)行自動(dòng)化的人格預(yù)測(cè)具有便利性與客觀性。研究者們面向用戶網(wǎng)絡(luò)文本信息及可獲得的其它相關(guān)信息,進(jìn)行相應(yīng)的特征提取,并采用如k NN,SVM,樸素貝葉斯以及決策樹等不同的機(jī)器學(xué)習(xí)算法,構(gòu)建人格預(yù)測(cè)模型。大量實(shí)驗(yàn)結(jié)果表明,基于社交網(wǎng)絡(luò)信息,可以有效地進(jìn)行自動(dòng)化的用戶人格預(yù)測(cè)。但目前工作中預(yù)測(cè)結(jié)果的準(zhǔn)確性并不是特別理想,需要給出更好的適合于用戶人格預(yù)測(cè)問題的自動(dòng)化預(yù)測(cè)方法,以及進(jìn)一步從網(wǎng)絡(luò)社交平臺(tái)用戶生成的信息中挖掘出與人格特質(zhì)具有高度相關(guān)性的特征,并探索人格特質(zhì)之間的內(nèi)在聯(lián)系。本文基于上述問題,主要做了以下工作:針對(duì)用戶在社交網(wǎng)站上的文本狀態(tài)信息,面向人格預(yù)測(cè),提出了結(jié)合基于詞的形式特征與語義特征的特征設(shè)計(jì)方案。其中,基于詞的形式特征包括基于信息增益提取的詞特征,情感特征,語法上的詞性與時(shí)態(tài)特征,以及寫作風(fēng)格特征,并依據(jù)特征與類別標(biāo)簽集合的相關(guān)性,運(yùn)用MLFSIE-W算法進(jìn)行特征選擇與加權(quán);語義特征方面,基于Word Net通用本體映射,定義了概念向量,并給出了結(jié)合語義距離與語義重合度的文本語義相關(guān)度計(jì)算方法;最后根據(jù)語義相關(guān)度和基于詞特征的相似度,給出了綜合相似度計(jì)算方法。在實(shí)驗(yàn)中,與相關(guān)工作采用的各種特征基于相同的機(jī)器學(xué)習(xí)算法進(jìn)行了對(duì)比,隨后還討論了形式特征和語義特征在人格預(yù)測(cè)中的作用。針對(duì)用戶人格預(yù)測(cè)的相關(guān)研究中通常采用單標(biāo)簽機(jī)器學(xué)習(xí)算法處理的問題,本文采用一種基于隨機(jī)游走模型的多標(biāo)簽用戶人格預(yù)測(cè)方法來進(jìn)行分析和處理。因?yàn)橥ㄟ^對(duì)大五人格的分析以及用戶人格特質(zhì)的表現(xiàn)形式,人格預(yù)測(cè)問題在本質(zhì)上應(yīng)該屬于一種多標(biāo)簽學(xué)習(xí)問題。在執(zhí)行隨機(jī)游走模型算法的過程中,利用綜合相似度改進(jìn)其原始的基于歐式距離的邊權(quán)重計(jì)算方法來構(gòu)造隨機(jī)游走圖,經(jīng)過迭代與轉(zhuǎn)化,得到每個(gè)用戶隸屬于各個(gè)類標(biāo)簽的概率分布,結(jié)合閾值的計(jì)算,最終給出多標(biāo)簽預(yù)測(cè)結(jié)果。實(shí)驗(yàn)表明,該方法比采用SVM、k NN和NB等主流單標(biāo)簽分類器的方法具有更好的預(yù)測(cè)效果,這種方法考慮到了類標(biāo)簽之間的潛在相關(guān)性,預(yù)測(cè)結(jié)果更為合理。針對(duì)目前相關(guān)研究中關(guān)于社交網(wǎng)絡(luò)用戶人格預(yù)測(cè)的各項(xiàng)評(píng)價(jià)指標(biāo)結(jié)果普遍不高的情況,本文提出采用集成學(xué)習(xí)的方式,結(jié)合隨機(jī)游走模型,給出了集成多標(biāo)簽學(xué)習(xí)的用戶人格預(yù)測(cè)方法。在面向多標(biāo)簽學(xué)習(xí)的集成方法Ada Boost.MH框架下,改變?cè)嫉膶⒍鄻?biāo)簽問題分解成多個(gè)二分類并用二類分類器作為基分類器同時(shí)進(jìn)行迭代的思想,直接運(yùn)用基于隨機(jī)游走模型的多標(biāo)簽分類器作為基分類器,既能夠在基分類器的層面上保留類標(biāo)簽之間的相關(guān)性信息,又可以達(dá)到集成學(xué)習(xí)的目的。實(shí)驗(yàn)結(jié)果表明,面向人格預(yù)測(cè)問題,集成多標(biāo)簽學(xué)習(xí)方法是有效的,能夠在多標(biāo)簽基分類器的基礎(chǔ)上進(jìn)一步提高預(yù)測(cè)的各項(xiàng)評(píng)價(jià)指標(biāo)結(jié)果,達(dá)到更好的預(yù)測(cè)效果。
【關(guān)鍵詞】:社交網(wǎng)絡(luò) 人格預(yù)測(cè) 多標(biāo)簽學(xué)習(xí) 社會(huì)計(jì)算
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP393.09;TP181
【目錄】:
- 摘要4-7
- abstract7-12
- 第1章 緒論12-17
- 1.1 研究背景12-13
- 1.2 研究?jī)?nèi)容13-15
- 1.3 研究意義15
- 1.4 本文結(jié)構(gòu)安排15-17
- 第2章 相關(guān)介紹與研究現(xiàn)狀17-24
- 2.1 人格模型17
- 2.2 大五人格17-19
- 2.3 大五人格與社交網(wǎng)絡(luò)19-20
- 2.4 目前研究現(xiàn)狀20-23
- 2.5 本章小結(jié)23-24
- 第3章 特征設(shè)計(jì)24-33
- 3.1 數(shù)據(jù)預(yù)處理24-25
- 3.2 基于詞的特征25-29
- 3.2.1 信息增益25-26
- 3.2.2 其它形式特征26-27
- 3.2.3 特征選擇與加權(quán)27-29
- 3.3 語義特征29-32
- 3.4 本章小結(jié)32-33
- 第4章 基于隨機(jī)游走模型的用戶人格預(yù)測(cè)33-42
- 4.1 多標(biāo)簽學(xué)習(xí)33-35
- 4.2 隨機(jī)游走模型35-39
- 4.3 用戶人格預(yù)測(cè)方法39-40
- 4.4 本章小結(jié)40-42
- 第5章 集成多標(biāo)簽學(xué)習(xí)方法的用戶人格預(yù)測(cè)42-50
- 5.1 集成學(xué)習(xí)42-43
- 5.2 提升方法43-46
- 5.2.1 概述43-44
- 5.2.2 AdaBoost44-46
- 5.3 多標(biāo)簽AdaBoost.MH框架46-47
- 5.4 用戶人格預(yù)測(cè)方法47-49
- 5.5 本章小結(jié)49-50
- 第6章 實(shí)驗(yàn)及結(jié)果對(duì)比分析50-57
- 6.1 實(shí)驗(yàn)數(shù)據(jù)50-51
- 6.2 實(shí)驗(yàn)設(shè)計(jì)51-52
- 6.3 實(shí)驗(yàn)結(jié)果及分析52-56
- 6.4 本章小結(jié)56-57
- 第7章 總結(jié)與展望57-60
- 7.1 本文工作總結(jié)57-58
- 7.2 工作展望58-60
- 參考文獻(xiàn)60-65
- 作者簡(jiǎn)介及在學(xué)期間所取得的科研成果65-66
- 致謝66
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前2條
1 張振海;李士寧;李志剛;陳昊;;一類基于信息熵的多標(biāo)簽特征選擇算法[J];計(jì)算機(jī)研究與發(fā)展;2013年06期
2 鄭偉;王朝坤;劉璋;王建民;;一種基于隨機(jī)游走模型的多標(biāo)簽分類算法[J];計(jì)算機(jī)學(xué)報(bào);2010年08期
本文關(guān)鍵詞:基于多標(biāo)簽學(xué)習(xí)的社交網(wǎng)絡(luò)用戶人格預(yù)測(cè)方法研究,,由筆耕文化傳播整理發(fā)布。
本文編號(hào):302368
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/302368.html
最近更新
教材專著