天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 軟件論文 >

社交媒體文本數據挖掘算法及應用

發(fā)布時間:2018-06-03 06:06

  本文選題:文本挖掘 + 社交媒體分析; 參考:《南京大學》2017年碩士論文


【摘要】:社交媒體是互聯網近幾年快速發(fā)展的產物,現如今已融入了人們生活的方方面面。社交媒體數據已經成為互聯網中最重要的信息來源,在互聯網各類應用中發(fā)揮著重要的作用。文本挖掘技術也正在逐步適應大數據時代,在社交媒體中逐步流行起來。傳統的文本挖掘任務主要針對格式規(guī)范的新聞文本。各類文本處理工具在基于新聞文本的任務中都能夠提供可靠的預處理結果。然而,傳統的文本處理方法在互聯網數據文本的處理中顯得不盡如人意;ヂ摼W文本如微博數據,有著較多區(qū)別于傳統文本的特性。這些特性給社交媒體文本挖掘工作帶來了新的機遇和挑戰(zhàn)。針對互聯網數據的新特性,我們從社交媒體分析領域的兩個具體任務出發(fā)提出了我們的方法。在微博平臺中,用戶能夠隨時發(fā)布微博來記錄他們的日常生活以及表達他們的觀點或者想法。最近,基于用戶微博數據來為用戶生成個性化標簽的任務逐步流行了起來。個性化標簽,作為描述用戶個性化興趣愛好的特征,在用戶畫像、個性化推薦等領域起到了非常重要的作用。很多已有的標簽抽取工作都是作為普通的關鍵詞抽取任務來完成。對于內容簡短、格式不規(guī)范的微博數據,傳統的關鍵詞抽取方法難以獲得較好的抽取結果。在本文中,我們提出了一種無監(jiān)督的標簽抽取方法。首先,我們使用了一種特殊的數據標準化方式來構造數據集。之后,通過基于稀疏模型的特征選擇方法來為用戶抽取特征詞,并對目標標簽進行擴展。最后,我們定義了一種重排序的優(yōu)化策略來過濾抽取結果。我們在新浪微博的數據集上進行了實驗。對比其他無監(jiān)督的方法,我們提出的方法顯著地提升了標簽抽取效果。微博中的事件抽取任務是一個非常有趣卻很難的任務,F存的大多數方法都是基于事件特征詞的共現頻率或者主題分布來進行事件抽取的。較少的工作使用到了微博數據中的時序信息進行事件識別。在本文中,我們使用了一種基于協同訓練的多視角聚類方法,在事件抽取過程中能夠同時考慮數據中的主題信息和時序信息。首先,我們分別利用主題模型和時序分析算法構造事件特征詞的主題相似度矩陣和時序相似度矩陣。隨后,基于協同訓練的多視角聚類算法會被用來對事件特征詞進行聚類,不同的類簇表示不同的事件。在Twitter數據集上的實驗結果表明,我們的方法不僅比單獨考慮主題模型和時序分析的單視角方法要好,對比其他基于關鍵詞聚類和基于文本聚類的方法也有很大的優(yōu)勢。
[Abstract]:Social media is the product of the rapid development of the Internet in recent years, and now has been integrated into all aspects of people's lives. Social media data has become the most important information source in the Internet and plays an important role in various applications of the Internet. Text mining technology is also gradually adapting to the big data era, gradually popular in social media. The traditional task of text mining is mainly aimed at the format of the standard news text. All kinds of text processing tools can provide reliable preprocessing results in news-based tasks. However, the traditional text processing method is not satisfactory in the Internet data text processing. Internet text, such as Weibo data, is different from traditional text. These features bring new opportunities and challenges to social media text mining. In view of the new features of Internet data, we put forward our method from two specific tasks in the field of social media analysis. On the Weibo platform, users can publish Weibo at any time to record their daily lives and express their views or ideas. Recently, the task of generating personalized tags for users based on user Weibo data has gradually become popular. As a feature of describing users' personalized interests, personalized tags play a very important role in user portrait, personalized recommendation and other fields. Many existing tag extraction tasks are done as common keyword extraction tasks. For Weibo data with short content and non-standard format, the traditional keyword extraction method is difficult to obtain better results. In this paper, we propose an unsupervised label extraction method. First, we use a special method of data standardization to construct data sets. Then, the feature selection method based on sparse model is used to extract the feature words for the user and extend the target label. Finally, we define a reordering optimization strategy to filter the extraction results. We experimented on the data set of Sina Weibo. Compared with other unsupervised methods, the proposed method significantly improves the effectiveness of label extraction. The event extraction task in Weibo is a very interesting but difficult task. Most existing methods are based on co-occurrence frequency or topic distribution of event feature words. Less work uses temporal information in Weibo data for event recognition. In this paper, we use a multi-view clustering method based on cooperative training, which can consider both topic information and temporal information in the process of event extraction. Firstly, the topic similarity matrix and temporal similarity matrix of event feature words are constructed by using topic model and temporal analysis algorithm, respectively. Subsequently, the multi-view clustering algorithm based on cooperative training is used to cluster the event feature words, and different clusters represent different events. The experimental results on the Twitter dataset show that our method is not only better than the single view method which considers the topic model and temporal analysis alone, but also has great advantages over other methods based on keyword clustering and text clustering.
【學位授予單位】:南京大學
【學位級別】:碩士
【學位授予年份】:2017
【分類號】:TP391.1

【相似文獻】

相關期刊論文 前10條

1 ;社交媒體十大趨勢[J];現代營銷(經營版);2009年05期

2 ;怎樣看待社交媒體[J];中國經濟和信息化;2011年12期

3 馬爾科姆;;被高估的社交媒體[J];當代傳播;2011年03期

4 ;未來社交媒體10大趨勢[J];中國傳媒科技;2011年07期

5 啟程;;社交媒體之“濕”與社會之痛[J];檢察風云;2011年17期

6 曹博林;;社交媒體:概念、發(fā)展歷程、特征與未來——兼談當下對社交媒體認識的模糊之處[J];湖南廣播電視大學學報;2011年03期

7 ;國外媒體對記者使用社交媒體的規(guī)定[J];新聞記者;2011年12期

8 馬小娟;;論社交媒體對公民政治參與的影響[J];中國出版;2011年24期

9 馮巖;;人文城市發(fā)展中的社交媒體管理[J];城市發(fā)展研究;2012年03期

10 文衛(wèi)華;劉嘉麗;王雅萱;;試析社交媒體在新聞傳播中的運用與邊界[J];中國報業(yè);2012年08期

相關會議論文 前3條

1 袁靖華;;微博的理想與現實——兼論社交媒體建構公共空間的三大困擾因素[A];數字未來與媒介社會2[C];2010年

2 洪婧茹;;社交媒體與上海大學生的環(huán)保參與:從線上關注到線下行動[A];中華新聞傳播學術聯盟第六屆研究生學術研討會論文集[C];2014年

3 王斌;鄭滿寧;;扭轉“逆差”:社交媒體時代國人形象傳播機制及策略[A];新聞學論集(第30輯)[C];2014年

相關重要報紙文章 前10條

1 韓軍 編譯;社交媒體營銷助推器還是新航向?[N];中國民航報;2010年

2 本報記者 陳曉平;社交媒體重構商業(yè)?[N];21世紀經濟報道;2011年

3 一鳴;出版商介入社交媒體的危險[N];中國圖書商報;2011年

4 Chris Nerney;社交媒體帶來的5大安全威脅[N];網絡世界;2011年

5 李鑫源;社交媒體影響不容小窺[N];科技日報;2011年

6 陳曉平;社交媒體的“葫蘆論”[N];21世紀經濟報道;2011年

7 肖明超(新生代市場監(jiān)測機構副總經理);社交媒體引發(fā)營銷裂變[N];中國圖書商報;2011年

8 文化學者 常江;社交媒體的“情緒化”[N];新華每日電訊;2012年

9 朱永磊 貝恩大中華區(qū)電信、媒體與高科技業(yè)務主管;如何成為社交媒體的長期贏家[N];通信產業(yè)報;2012年

10 記者 趙中文;東南亞企業(yè)傾向利用社交媒體經商[N];中華工商時報;2012年

相關博士學位論文 前7條

1 張雪;復雜網絡鏈路分析與社交媒體預測[D];國防科學技術大學;2013年

2 羅準辰;社交媒體中的信息檢索與傳播分析[D];國防科學技術大學;2013年

3 丹尼爾;社交媒體在企業(yè)傳播中的使用:可口可樂中國和可口可樂加納案例研究[D];復旦大學;2014年

4 朱星瑋;社交媒體信息結構化組織及其應用研究[D];清華大學;2015年

5 謝松縣;社交媒體中觀點信息分析與應用[D];國防科學技術大學;2014年

6 陳夏雨;工作場所中企業(yè)社交媒體可供性的實證研究[D];中國科學技術大學;2017年

7 唐李洋;基于社交媒體大數據的Twitter營銷策略研究[D];合肥工業(yè)大學;2015年

相關碩士學位論文 前10條

1 李雪絮;社交媒體廣告的表現策略研究[D];浙江理工大學;2013年

2 呂蒙;網絡社交媒體關系網絡與品牌傳播[D];遼寧大學;2013年

3 吳祖宏;大學生手機社交媒體依賴的問卷編制及特點研究[D];西南大學;2014年

4 張茜茹;大學生社交媒體依賴的測量及其與主觀幸福感的關系[D];山西師范大學;2015年

5 徐蕾;政務社交媒體用戶使用意愿研究[D];南京大學;2015年

6 鞏麗;社交媒體對電視節(jié)目受眾觀看行為的影響研究[D];復旦大學;2014年

7 鄒姝玉;社交媒體自我表達研究[D];四川師范大學;2015年

8 秦晶晶;大學生社交媒體的使用情況、社會支持與社交焦慮的關系及其情緒啟動效應研究[D];閩南師范大學;2015年

9 蔣勝;基于社交媒體網絡的消費者網購決策及商品推薦研究[D];安徽工程大學;2015年

10 任雁;“文化遷徙”背景下中國留學社交媒體使用的“兩棲”性研究[D];山東大學;2015年

,

本文編號:1971752

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/1971752.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶2eb18***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com