基于多源數(shù)據(jù)融合的微博用戶興趣挖掘方法
本文關鍵詞:基于多源數(shù)據(jù)融合的微博用戶興趣挖掘方法 出處:《哈爾濱工業(yè)大學》2016年碩士論文 論文類型:學位論文
【摘要】:隨著互聯(lián)網(wǎng)的快速發(fā)展,社交網(wǎng)絡得到人們的廣泛認可。在國內社交網(wǎng)絡方面,越來越多的人開始通過微博發(fā)布信息,而微博網(wǎng)站也成為主流海量信息的發(fā)布體,對微博的研究也從顯性的興趣標簽到微博本身潛在的內容進行主題挖掘。LDA(latent Dirichlet allocation)模型是近幾年比較流行的一種非監(jiān)督的主題模型,已經有一些研究通過在Twitter數(shù)據(jù)集上對LDA模型進行主題挖掘,但在中文微博的主題挖掘上的研究并不多;谖⒉﹥热莸挠脩襞d趣挖掘可以獲得較為精準的挖掘結果,但會面臨冷啟動和數(shù)據(jù)稀疏問題;诮换リP系的用戶興趣挖掘方法和基于交互信息的用戶興趣挖掘方法可以從兩個不同的角度彌補基于微博內容的用戶興趣挖掘方法的缺陷。本文爬取新浪微博用戶不同層次的數(shù)據(jù)用于進行多源數(shù)據(jù)融合微博用戶興趣建模研究。主要研究成果包括以下幾個方面:首先,結合傳統(tǒng)LDA模型提出一種適合中文微博的有監(jiān)督的興趣主題挖掘模型,即基于內容主題挖掘微博生成模型CTM-LDA。該模型有效的利用了先驗主題信息,根據(jù)微博用戶信息及用戶原創(chuàng)內容相融合挖掘微博用戶興趣主題。其次,利用基于交互關系和交互信息的等信息源分別構建興趣模型,利用交互關系矩陣和關注人興趣標簽以及詞語間相似度生成關注人興趣主題。最后,針對微博自定義內容,話題微博,交互信息,以及用戶自定義標簽等不同數(shù)據(jù)進行實驗,構建微博用戶興趣模型,研究并設計了多源數(shù)據(jù)融合的用戶興趣模型,利用空間向量構建出用戶最終的興趣主題。本文提出了不同數(shù)據(jù)源的微博用戶興趣融合模型,通過研究發(fā)現(xiàn)可以有效利用用戶之間的交互關聯(lián)關系的信息對微博用戶進行興趣主題挖掘,且融合模型的效果要更優(yōu)。未來通過用戶的興趣模型可有針對性的對微博用戶進行個性化推薦,該模型可推廣到其他社會媒體網(wǎng)站平臺,對于企業(yè)而言具有一定商業(yè)研究價值。
[Abstract]:With the rapid development of the Internet, social networks have been widely recognized. In the domestic social networks, more and more people began to publish information through Weibo. And Weibo website also becomes the main stream massive information release body. The study of Weibo also goes from explicit interest tags to Weibo's own potential content for topic mining. LDAlatent Dirichlet location). Model is a popular unsupervised thematic model in recent years. There has been some research on topic mining for LDA models on Twitter datasets. However, there is not much research on the Chinese Weibo topic mining. The user interest mining based on Weibo content can obtain more accurate mining results. However, it will face the problem of cold startup and sparse data. The interactive method of user interest mining and the method of user interest mining based on interactive information can make up for the user interest mining based on Weibo content from two different angles. This paper crawls different levels of data from the user of Sina Weibo to carry on the multi-source data fusion Weibo user interest modeling research. The main research results include the following aspects:. First. Based on the traditional LDA model, a supervised topic mining model for Chinese Weibo is proposed. Namely based on content topic mining Weibo generation model CTM-LDA. this model effectively utilizes the prior topic information. According to Weibo user information and user-generated content fusion mining Weibo user interest topics. Secondly using interactive and interactive information sources such as information to build interest model. Using the interaction matrix, interest labels and the similarity between words and expressions to generate topics of interest. Finally, for Weibo custom content, the topic Weibo, interactive information. As well as user defined tags and other different data experiments, build Weibo user interest model, research and design multi-source data fusion user interest model. Using space vector to construct the user's final topic of interest. In this paper, Weibo user interest fusion model with different data sources is proposed. Through the research, it is found that the information of the interaction relationship between users can be used effectively to mine the topic of interest of Weibo users. And the effect of fusion model should be better. In the future, Weibo user can be personalized recommended through user interest model, this model can be extended to other social media website platform. It has certain commercial research value for enterprises.
【學位授予單位】:哈爾濱工業(yè)大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP391.1;F49
【相似文獻】
相關期刊論文 前10條
1 王杰;使圖像的編輯更加容易[J];中文信息;1998年Z1期
2 王波,姚敏;基于信息抽取的匿名用戶興趣描述[J];華南理工大學學報(自然科學版);2004年S1期
3 董全德;;用戶興趣遷移模式與個性化服務[J];電腦知識與技術(學術交流);2007年17期
4 鄭運剛;馬建國;;基于分類的用戶興趣漂移模型[J];情報雜志;2008年01期
5 張濤;;基于瀏覽歷史的用戶興趣提取模型[J];軟件導刊;2009年06期
6 楊杰;陳恩紅;;面向個性化服務的用戶興趣偏移檢測及處理方法[J];電子技術;2009年11期
7 陳圣兵;李龍澍;紀霞;;多層次用戶興趣模式的動態(tài)捕捉[J];計算機工程與應用;2009年36期
8 鄭曉健;龐淑英;何英;;一種面向主題的用戶興趣挖掘模型研究[J];昆明學院學報;2010年03期
9 花青松;劉海峰;胡錚;;基于基尼系數(shù)的用戶興趣分布模式度量方法[J];計算機工程;2012年22期
10 孫雨生;劉偉;仇蓉蓉;黃傳慧;;國內用戶興趣建模研究進展[J];情報雜志;2013年05期
相關會議論文 前7條
1 趙琦;駱志剛;田文穎;李聰;丁凡;;一種基于負反饋信息的用戶興趣模型修正方法[A];中國通信學會第六屆學術年會論文集(下)[C];2009年
2 孫靜;郭奇;張志強;馮建華;;一種基于面向領域檢索系統(tǒng)的用戶興趣獲取方法[A];第二十一屆中國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2004年
3 孫鐵利;教巍巍;;基于馬爾科夫模型的用戶興趣導航模型系統(tǒng)(英文)[A];計算機技術與應用進展——全國第17屆計算機科學與技術應用(CACIS)學術會議論文集(上冊)[C];2006年
4 廖祝華;劉建勛;易愛平;;基于用戶興趣的Web服務發(fā)現(xiàn)[A];2006年全國開放式分布與并行計算機學術會議論文集(三)[C];2006年
5 李曉黎;史忠植;梁永全;劉福桃;;INTERNET網(wǎng)上一種識別用戶興趣的學習方法[A];第十六屆全國數(shù)據(jù)庫學術會議論文集[C];1999年
6 田萱;杜小勇;;基于SAM模型的用戶興趣表示研究[A];第二十三屆中國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2006年
7 王勇;劉奕群;張敏;馬少平;茹立云;;基于用戶興趣分析的網(wǎng)頁生命周期建模(英文)[A];第三屆全國信息檢索與內容安全學術會議論文集[C];2007年
相關重要報紙文章 前1條
1 中國科學院計算技術研究所 王 斌;內容為王[N];計算機世界;2004年
相關博士學位論文 前8條
1 張召;在線論壇用戶興趣圖譜發(fā)現(xiàn)與個性化信息推薦[D];華東師范大學;2012年
2 劉淇;基于用戶興趣建模的推薦方法及應用研究[D];中國科學技術大學;2013年
3 郭巖;網(wǎng)絡日志中用戶興趣的挖掘及利用[D];中國科學院研究生院(計算技術研究所);2004年
4 吳麗輝;個性化的Web信息采集技術研究[D];中國科學院研究生院(計算技術研究所);2005年
5 謝興;社會網(wǎng)絡中興趣發(fā)現(xiàn)與信息組織的研究[D];復旦大學;2011年
6 李東勝;基于興趣與保護隱私的在線社區(qū)推薦技術研究[D];復旦大學;2012年
7 陳浩;Web搜索的用戶興趣與智能優(yōu)化研究[D];中南大學;2012年
8 姜邵巍;基于競爭關系的推薦技術研究[D];北京郵電大學;2014年
相關碩士學位論文 前10條
1 陳媛媛;用戶興趣圖譜演化機制研究[D];武漢理工大學;2014年
2 梁潤庭(Runting Leung);面向微博用戶的興趣識別算法的研究與實現(xiàn)[D];西南交通大學;2015年
3 俞忻峰;新浪微博的數(shù)據(jù)采集和推薦方案研究[D];南京理工大學;2015年
4 楊梅;基于樹型網(wǎng)絡的多源用戶興趣數(shù)據(jù)融合方法研究[D];四川師范大學;2015年
5 石光蓮;基于形式概念分析的Folksonomy用戶興趣識別研究[D];西南大學;2015年
6 湯文清;微博用戶的興趣及性格分析[D];上海大學;2015年
7 梅佩;基于瀏覽內容的用戶興趣研究[D];北京化工大學;2015年
8 張少杰;基于用戶興趣的微博廣告投放系統(tǒng)的設計與實現(xiàn)[D];山西大學;2015年
9 黃龍偉;基于蟻群算法的WEB日志用戶興趣路徑研究[D];江西師范大學;2015年
10 方正;微博短文本分析技術研究及應用[D];電子科技大學;2014年
,本文編號:1383687
本文鏈接:http://www.sikaile.net/jingjilunwen/xxjj/1383687.html