天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 軟件論文 >

短文本流中主題模型及其應(yīng)用研究

發(fā)布時(shí)間:2018-12-14 19:49
【摘要】:快速獲取文檔主題對(duì)于文本內(nèi)容挖掘和語(yǔ)義理解有非常重要的作用。隨著計(jì)算機(jī)的快速發(fā)展和人工智能時(shí)代的來(lái)臨,人類對(duì)于機(jī)器理解自然語(yǔ)言的語(yǔ)義有著更深層次的需求,文檔主題建;蛘叻Q作主題挖掘在信息檢索、人工智能、自然語(yǔ)言理解、數(shù)據(jù)挖掘領(lǐng)域占據(jù)比較重要的地位。經(jīng)典的狄利克雷主題模型主要針對(duì)相對(duì)較長(zhǎng)的文本,這些經(jīng)典的模型能夠方便的獲得文檔的主題和潛在的語(yǔ)義,但是在短文本流中并不能取得很好的效果。本文主要針對(duì)短文本流中的主題建模進(jìn)行研究。隨著社交媒體的快速發(fā)展,有數(shù)以億計(jì)的用戶活躍在發(fā)布短文本的社交平臺(tái)上,包括臉書網(wǎng),Twitter,新浪微博,微信等。這些平臺(tái)上每天都產(chǎn)生億級(jí)的短文本消息,我們通過(guò)分析挖掘這些短文本內(nèi)容可以獲得大眾的興趣,輿論導(dǎo)向和個(gè)性化的用戶興趣。這項(xiàng)研究對(duì)于個(gè)性化的服務(wù)包括個(gè)性化推薦、搜索、精準(zhǔn)廣告投放等有重要意義。本文的工作包括:結(jié)合外部知識(shí)的狄利克雷主題模型,該方法考慮改進(jìn)經(jīng)典的基于長(zhǎng)文本內(nèi)容的隱含語(yǔ)義模型,通過(guò)引入自媒體發(fā)布的內(nèi)容,豐富短文本中詞與詞之間的共現(xiàn),以提高性能。其中,引入的自媒體內(nèi)容則是用戶關(guān)注的一類高質(zhì)量博主所發(fā)布的高質(zhì)量?jī)?nèi)容,該方法的本質(zhì)是給潛在語(yǔ)義模型提供了更多高質(zhì)量的共現(xiàn)詞對(duì),從而提高主題建模的質(zhì)量。本文將該主題模型應(yīng)用于短文本環(huán)境中用戶的興趣建模,并結(jié)合微博平臺(tái)的特征提出了個(gè)性化微博再排序框架。即通過(guò)分析用戶在某個(gè)時(shí)間段發(fā)布的文本內(nèi)容來(lái)推斷用戶興趣,同時(shí)考慮用戶和微博發(fā)布者之間的互動(dòng)信息及微博發(fā)布者的特征,將用戶一個(gè)時(shí)間段內(nèi)接收到的微博根據(jù)用戶興趣進(jìn)行再排序最終推送給用戶。實(shí)驗(yàn)證明,結(jié)合外部知識(shí)的主題模型可以很好的挖掘用戶的興趣,推薦更多用戶感興趣的微博給用戶。動(dòng)態(tài)狄利克雷多項(xiàng)混合用戶主題模型,考慮用戶興趣隨時(shí)間變化的特性和短文本本身的內(nèi)容特征,本文進(jìn)行用戶層面的動(dòng)態(tài)主題建模。根據(jù)用戶當(dāng)前時(shí)間段發(fā)布的短文本內(nèi)容和上一時(shí)間段用戶的興趣,來(lái)追蹤用戶動(dòng)態(tài)變化的興趣,其中用戶的興趣表示為混合主題多項(xiàng)分布。在短文本環(huán)境下為了更好的推斷的主題分布,針對(duì)短文本詞與詞之間共現(xiàn)的稀疏特性,改進(jìn)狄利克雷生成模型及其吉布斯采樣過(guò)程。通過(guò)該模型,可以通過(guò)用戶在不同時(shí)間段的興趣分布(主題分布)。同時(shí)本文將該改進(jìn)的主題模型應(yīng)用于動(dòng)態(tài)用戶聚類,使得用戶聚類的結(jié)果具有可解釋性。實(shí)驗(yàn)結(jié)果表明,在短文本流中,我們的模型可以更好的推斷用戶隨時(shí)間變化的興趣,同時(shí)給出更合理動(dòng)態(tài)變化的用戶群組結(jié)果。
[Abstract]:Getting document topics quickly is very important for text content mining and semantic understanding. With the rapid development of computer and the advent of the era of artificial intelligence, human beings have a deeper demand for machine understanding the semantics of natural language. Document topic modeling or topic mining in information retrieval, artificial intelligence, Natural language understanding, data mining field plays a more important role. The classical Delikley topic models are mainly for relatively long text. These classical models can easily obtain the topic and potential semantics of the document, but they can not achieve good results in the short text flow. This paper focuses on the topic modeling in the short text stream. With the rapid development of social media, hundreds of millions of users are active on short text publishing social platforms, including Facebook, Twitter, Sina Weibo, WeChat, etc. On these platforms, hundreds of millions of short text messages are generated every day. Through analyzing and mining these short text contents, we can gain public interest, public opinion orientation and personalized user interest. This research is of great significance for personalized services, including personalized recommendation, search, accurate advertising, and so on. The work of this paper includes: combining with the Delikley topic model of external knowledge, this method considers the improvement of the classical implicit semantic model based on long text content, and enriches the co-occurrence between words and words in the short text by introducing the content published by the media. To improve performance. The introduced self-media content is a kind of high-quality content published by a class of high-quality bloggers concerned by users. The essence of this method is to provide more high-quality co-occurrence pairs to the potential semantic model, thus improving the quality of topic modeling. In this paper, the topic model is applied to the modeling of user's interest in the short text environment, and the framework of individualized Weibo reordering is put forward according to the features of Weibo platform. That is, by analyzing the text content published by the user at a certain time to infer the interest of the user, and at the same time considering the interactive information between the user and Weibo publisher and the characteristics of Weibo publisher, Weibo received by the user within a period of time according to user interests to sort the final push to the user. Experimental results show that the topic model combined with external knowledge can well tap the interests of users and recommend Weibo, who is interested in more users, to give them. In this paper, the dynamic theme modeling at the user level is carried out by considering the characteristics of user interest over time and the content characteristics of the short text. According to the short text content published by the user in the current time period and the interest of the user in the previous period, the interest of the user is traced to the dynamic change of the user, where the interest of the user is expressed as a multi-item distribution of mixed topics. In order to better infer the topic distribution in short text environment, we improve the Delikley generation model and its Gibbs sampling process in view of the sparsity of cooccurrence between the short text and the word. Through this model, the distribution of interest (topic distribution) of users in different time periods can be obtained. At the same time, the improved topic model is applied to dynamic user clustering, which makes the result of user clustering interpretable. The experimental results show that our model can better infer the interest of users over time in short text flow, and give more reasonable dynamic change of user group results.
【學(xué)位授予單位】:山東大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP391.1

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 陳敏,湯曉安;在Microsoft Access中引入文本文件[J];微型電腦應(yīng)用;1995年02期

2 李盛瑜;何文;;一種對(duì)聊天文本進(jìn)行特征選取的方法研究[J];計(jì)算機(jī)科學(xué);2007年05期

3 蔣志方;祝翠玲;吳強(qiáng);;一個(gè)對(duì)不帶類別標(biāo)記文本進(jìn)行分類的方法[J];計(jì)算機(jī)工程;2007年12期

4 趙鋼;;從復(fù)雜文本中導(dǎo)入數(shù)據(jù)的方法[J];中國(guó)審計(jì);2007年18期

5 易樹鴻;張為群;;一種基于粗集的文本數(shù)據(jù)特征信息的挖掘方法[J];計(jì)算機(jī)科學(xué);2002年08期

6 李建中,楊艷,張艷秋;并行文本管理原型系統(tǒng)PDoc的功能與總體框架[J];哈爾濱工業(yè)大學(xué)學(xué)報(bào);2004年09期

7 覃曉;元昌安;彭昱忠;丁超;;基于基因表達(dá)式編程的Web文本分類研究[J];網(wǎng)絡(luò)安全技術(shù)與應(yīng)用;2009年03期

8 諶志群;;文本趨勢(shì)挖掘綜述[J];情報(bào)科學(xué);2010年02期

9 王亞民;劉洋;;含附件文本的分類算法研究[J];情報(bào)雜志;2012年08期

10 江偉;潘昊;;基于優(yōu)化的多核學(xué)習(xí)方法的Web文本分類的研究[J];計(jì)算機(jī)技術(shù)與發(fā)展;2013年10期

相關(guān)會(huì)議論文 前10條

1 許君;王朝坤;劉立超;王建民;劉璋;;云環(huán)境中的近似復(fù)制文本檢測(cè)[A];第29屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(B輯)(NDBC2012)[C];2012年

2 易天元;葉春生;;工業(yè)鍋爐圖紙輸入的文本數(shù)據(jù)處理[A];1997中國(guó)控制與決策學(xué)術(shù)年會(huì)論文集[C];1997年

3 胡蓉;唐常杰;陳敏敏;欒江;;關(guān)聯(lián)規(guī)則制導(dǎo)的遺傳算法在文本分類中的應(yīng)用[A];第十九屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2002年

4 李文波;孫樂(lè);黃瑞紅;馮元勇;張大鯤;;基于Labeled-LDA模型的文本分類新算法[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年

5 黃云平;孫樂(lè);李文波;;基于上下文圖模型文本表示的文本分類研究[A];第四屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年

6 蔣勇;陳曉靜;;一種多方向手寫文本行提取方法[A];第二十七屆中國(guó)控制會(huì)議論文集[C];2008年

7 李瑞;王朝坤;鄭偉;王建民;王偉平;;基于MapReduce框架的近似復(fù)制文本檢測(cè)[A];NDBC2010第27屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(B輯)[C];2010年

8 胡俊;黃厚寬;;一種基于SVM的可視化文本分類的方法[A];第二十一屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2004年

9 勞錦明;韋崗;;文本壓縮技術(shù)研究的新進(jìn)展[A];開創(chuàng)新世紀(jì)的通信技術(shù)——第七屆全國(guó)青年通信學(xué)術(shù)會(huì)議論文集[C];2001年

10 江荻;;藏語(yǔ)文本信息處理的歷程與進(jìn)展[A];中文信息處理前沿進(jìn)展——中國(guó)中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議論文集[C];2006年

相關(guān)重要報(bào)紙文章 前1條

1 戴洪玲;向Excel中快速輸入相同文本[N];中國(guó)電腦教育報(bào);2004年

相關(guān)博士學(xué)位論文 前10條

1 宋歌;基于聚類森林的文本流分類方法研究[D];哈爾濱工業(yè)大學(xué);2014年

2 韓開旭;基于支持向量機(jī)的文本情感分析研究[D];東北石油大學(xué);2014年

3 鄭立洲;短文本信息抽取若干技術(shù)研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2016年

4 韓磊;漢語(yǔ)句義結(jié)構(gòu)模型分析及其文本表示方法研究[D];北京理工大學(xué);2016年

5 劉林;面向論壇文本的大學(xué)生情緒識(shí)別研究[D];華中師范大學(xué);2016年

6 張博宇;基于局部特征的場(chǎng)景文本分析方法研究[D];哈爾濱工業(yè)大學(xué);2015年

7 胡明涵;面向領(lǐng)域的文本分類與挖掘關(guān)鍵技術(shù)研究[D];東北大學(xué) ;2009年

8 孫曉華;基于聚類的文本機(jī)會(huì)發(fā)現(xiàn)關(guān)鍵問(wèn)題研究[D];哈爾濱工程大學(xué);2010年

9 尚文倩;文本分類及其相關(guān)技術(shù)研究[D];北京交通大學(xué);2007年

10 霍躍紅;典籍英譯譯者文體分析與文本的譯者識(shí)別[D];大連理工大學(xué);2010年

相關(guān)碩士學(xué)位論文 前10條

1 王軼霞;基于半監(jiān)督遞歸自編碼的情感分類研究[D];內(nèi)蒙古大學(xué);2015年

2 金傳鑫;氣象文本分類特征選擇方法及其在MapReduce上的實(shí)現(xiàn)[D];南京信息工程大學(xué);2015年

3 李少卿;不良文本及其變體信息的檢測(cè)過(guò)濾技術(shù)研究[D];復(fù)旦大學(xué);2014年

4 董秦濤;基于文本的個(gè)人情感狀態(tài)分析研究[D];蘭州大學(xué);2015年

5 鐘文波;搜索引擎中關(guān)鍵詞分類方法評(píng)估及推薦應(yīng)用[D];華南理工大學(xué);2015年

6 黃晨;基于新詞識(shí)別和時(shí)間跨度的微博熱點(diǎn)研究[D];上海交通大學(xué);2015年

7 陳紅陽(yáng);中文微博話題發(fā)現(xiàn)技術(shù)研究[D];重慶理工大學(xué);2015年

8 王s,

本文編號(hào):2379217


資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/2379217.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶126e3***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com