融合興趣的微博相似用戶挖掘研究
發(fā)布時(shí)間:2021-11-24 21:05
隨著Internet相關(guān)技術(shù)的不斷提高與廣泛應(yīng)用,在線社交網(wǎng)絡(luò)成為了人們分享信息的主要方式,微博作為社交網(wǎng)絡(luò)中的重要信息交互平臺(tái),受到了大量用戶的青睞。隨著微博用戶的增多,社交平臺(tái)的用戶數(shù)據(jù)呈指數(shù)級(jí)增長,相關(guān)系統(tǒng)應(yīng)用也越來越多。用戶的相似度計(jì)算是社交平臺(tái)相關(guān)應(yīng)用的一個(gè)重要基礎(chǔ),如社會(huì)化推薦,社區(qū)發(fā)現(xiàn)等,被眾多的研究者關(guān)注。如何更準(zhǔn)確地挖掘出微博社交網(wǎng)絡(luò)中的相似用戶,幫助平臺(tái)為用戶提供更好的服務(wù),是當(dāng)前研究的一個(gè)熱點(diǎn)問題。本研究以此為目的,對微博用戶進(jìn)行了深入分析,提出了一種挖掘微博相似用戶的方法。首先,本文針對微博用戶影響力評估方法存在的問題,提出了一種微博重要用戶挖掘算法,接著,對重要用戶進(jìn)行聚類,為用戶生成興趣表示,結(jié)合用戶的背景信息,提出了一種融合興趣的微博用戶相似度計(jì)算方法。具體工作如下:(1)研究了微博用戶的影響力分析,提出了一種改進(jìn)Page Rank的微博重要用戶挖掘方法。首先分析了用戶的背景信息,為每個(gè)用戶定義基本的自身影響力,針對用戶一段時(shí)間不活躍,影響力被誤判下降的問題,基于用戶博文的交互信息,引入了博文傳播率的計(jì)算方式,最后,基于用戶的社交關(guān)系,通過改進(jìn)Page R...
【文章來源】:重慶理工大學(xué)重慶市
【文章頁數(shù)】:61 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
標(biāo)簽的詞向量及相似度從圖4.3可以看出,詞嵌入向量的維度是128,“導(dǎo)演”和“明星”兩個(gè)標(biāo)簽對應(yīng)詞
4融合興趣的微博用戶相似度計(jì)算方法39圖4.4詞向量二維可視化從圖4.4可以看到,詞向量被映射到二維平面中,語義更相似的詞語更加接近。圖中的“動(dòng)畫”和“動(dòng)漫”更相近,“電影”和“電視”更相近,“帥哥”和“美女”更相近,表明它們具有更高的語義相似性;赪ord2Vec生成詞向量的表示方法,在計(jì)算詞語間的相似度時(shí),能提供更加豐富的上下文信息,更準(zhǔn)確地表達(dá)標(biāo)簽的語義相似性。對詞向量進(jìn)行聚類,不同聚類數(shù)的CH指標(biāo)如圖4.5所示。圖4.5不同聚類數(shù)的CH值圖4.5是將這些重要用戶聚成2到25個(gè)不同類別的結(jié)果。可以看到,當(dāng)k8時(shí),CH值較好,但發(fā)現(xiàn)依此建立用戶的興趣向量,較多被關(guān)注的用戶在同一個(gè)類中,模型的準(zhǔn)確率較差。當(dāng)k10時(shí),算法的準(zhǔn)確率相對較好。經(jīng)過多次的對比實(shí)驗(yàn),將重要用戶聚成10個(gè)類,并依此構(gòu)建普通用戶的興趣向量,故不同數(shù)據(jù)集的聚類數(shù)要根據(jù)實(shí)際情況而定。
【參考文獻(xiàn)】:
期刊論文
[1]一種改進(jìn)的微博用戶影響力評估算法[J]. 黃賢英,陽安志,劉小洋,劉廣峰. 計(jì)算機(jī)工程. 2019(12)
[2]融合興趣的微博用戶相似度計(jì)算研究[J]. 黃賢英,陽安志,劉小洋,劉廣峰. 計(jì)算機(jī)應(yīng)用研究. 2020(01)
[3]微博文本的句向量表示及相似度計(jì)算方法研究[J]. 段旭磊,張仰森,孫祎卓. 計(jì)算機(jī)工程. 2017(05)
[4]基于多源信息相似度的微博用戶推薦算法[J]. 姚彬修,倪建成,于蘋蘋,李淋淋,曹博. 計(jì)算機(jī)應(yīng)用. 2017(05)
[5]一種基于用戶動(dòng)態(tài)興趣和社交網(wǎng)絡(luò)的微博推薦方法[J]. 陳杰,劉學(xué)軍,李斌,章瑋. 電子學(xué)報(bào). 2017(04)
[6]基于微博的用戶相似度計(jì)算研究[J]. 鄭志蘊(yùn),賈春園,王振飛,李鈍. 計(jì)算機(jī)科學(xué). 2017(02)
[7]基于背景和內(nèi)容的微博用戶興趣挖掘[J]. 仲兆滿,管燕,胡云,李存華. 軟件學(xué)報(bào). 2017(02)
[8]融合標(biāo)簽關(guān)聯(lián)關(guān)系與用戶社交關(guān)系的微博推薦方法[J]. 馬慧芳,賈美惠子,張迪,藺想紅. 電子學(xué)報(bào). 2017(01)
[9]社會(huì)網(wǎng)絡(luò)節(jié)點(diǎn)影響力分析研究[J]. 韓忠明,陳炎,劉雯,原碧鴻,李夢琪,段大高. 軟件學(xué)報(bào). 2017(01)
[10]用戶興趣相似性度量的關(guān)系預(yù)測算法[J]. 黃宏程,陸衛(wèi)金,胡敏,魏青. 計(jì)算機(jī)科學(xué)與探索. 2017(07)
本文編號(hào):3516752
【文章來源】:重慶理工大學(xué)重慶市
【文章頁數(shù)】:61 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
標(biāo)簽的詞向量及相似度從圖4.3可以看出,詞嵌入向量的維度是128,“導(dǎo)演”和“明星”兩個(gè)標(biāo)簽對應(yīng)詞
4融合興趣的微博用戶相似度計(jì)算方法39圖4.4詞向量二維可視化從圖4.4可以看到,詞向量被映射到二維平面中,語義更相似的詞語更加接近。圖中的“動(dòng)畫”和“動(dòng)漫”更相近,“電影”和“電視”更相近,“帥哥”和“美女”更相近,表明它們具有更高的語義相似性;赪ord2Vec生成詞向量的表示方法,在計(jì)算詞語間的相似度時(shí),能提供更加豐富的上下文信息,更準(zhǔn)確地表達(dá)標(biāo)簽的語義相似性。對詞向量進(jìn)行聚類,不同聚類數(shù)的CH指標(biāo)如圖4.5所示。圖4.5不同聚類數(shù)的CH值圖4.5是將這些重要用戶聚成2到25個(gè)不同類別的結(jié)果。可以看到,當(dāng)k8時(shí),CH值較好,但發(fā)現(xiàn)依此建立用戶的興趣向量,較多被關(guān)注的用戶在同一個(gè)類中,模型的準(zhǔn)確率較差。當(dāng)k10時(shí),算法的準(zhǔn)確率相對較好。經(jīng)過多次的對比實(shí)驗(yàn),將重要用戶聚成10個(gè)類,并依此構(gòu)建普通用戶的興趣向量,故不同數(shù)據(jù)集的聚類數(shù)要根據(jù)實(shí)際情況而定。
【參考文獻(xiàn)】:
期刊論文
[1]一種改進(jìn)的微博用戶影響力評估算法[J]. 黃賢英,陽安志,劉小洋,劉廣峰. 計(jì)算機(jī)工程. 2019(12)
[2]融合興趣的微博用戶相似度計(jì)算研究[J]. 黃賢英,陽安志,劉小洋,劉廣峰. 計(jì)算機(jī)應(yīng)用研究. 2020(01)
[3]微博文本的句向量表示及相似度計(jì)算方法研究[J]. 段旭磊,張仰森,孫祎卓. 計(jì)算機(jī)工程. 2017(05)
[4]基于多源信息相似度的微博用戶推薦算法[J]. 姚彬修,倪建成,于蘋蘋,李淋淋,曹博. 計(jì)算機(jī)應(yīng)用. 2017(05)
[5]一種基于用戶動(dòng)態(tài)興趣和社交網(wǎng)絡(luò)的微博推薦方法[J]. 陳杰,劉學(xué)軍,李斌,章瑋. 電子學(xué)報(bào). 2017(04)
[6]基于微博的用戶相似度計(jì)算研究[J]. 鄭志蘊(yùn),賈春園,王振飛,李鈍. 計(jì)算機(jī)科學(xué). 2017(02)
[7]基于背景和內(nèi)容的微博用戶興趣挖掘[J]. 仲兆滿,管燕,胡云,李存華. 軟件學(xué)報(bào). 2017(02)
[8]融合標(biāo)簽關(guān)聯(lián)關(guān)系與用戶社交關(guān)系的微博推薦方法[J]. 馬慧芳,賈美惠子,張迪,藺想紅. 電子學(xué)報(bào). 2017(01)
[9]社會(huì)網(wǎng)絡(luò)節(jié)點(diǎn)影響力分析研究[J]. 韓忠明,陳炎,劉雯,原碧鴻,李夢琪,段大高. 軟件學(xué)報(bào). 2017(01)
[10]用戶興趣相似性度量的關(guān)系預(yù)測算法[J]. 黃宏程,陸衛(wèi)金,胡敏,魏青. 計(jì)算機(jī)科學(xué)與探索. 2017(07)
本文編號(hào):3516752
本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/3516752.html
最近更新
教材專著