天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

基于LDA模型的移動(dòng)投訴文本熱點(diǎn)話題識(shí)別

發(fā)布時(shí)間:2018-03-03 23:04

  本文選題:移動(dòng)投訴 切入點(diǎn):k-means 出處:《數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn)》2017年02期  論文類型:期刊論文


【摘要】:【目的】運(yùn)用中文信息處理和話題識(shí)別與追蹤的方法,從大量移動(dòng)投訴文本中找出有價(jià)值的信息。【方法】從分析投訴文本的特點(diǎn)入手,使用k-means先對(duì)文本聚類。利用LDA對(duì)每個(gè)類進(jìn)行建模,提取話題,并從詞頻、詞跨度和詞長(zhǎng)三方面計(jì)算每個(gè)話題中詞的權(quán)值,把權(quán)重最大的詞作為該話題的標(biāo)簽,并計(jì)算每個(gè)話題的文檔分布概率均值。對(duì)具有相同標(biāo)簽的話題,先按照均值最大的原則去掉重復(fù)標(biāo)簽話題,再對(duì)所有話題計(jì)算文檔支持率,并將文檔支持率作為話題的熱度,通過熱度區(qū)分熱點(diǎn)話題和一般話題!窘Y(jié)果】對(duì)投訴文本進(jìn)行時(shí)間上的建模,通過對(duì)比一般話題和熱點(diǎn)話題,得出熱點(diǎn)話題的支持文檔率至少是一般話題的3倍,支持文檔率變化趨勢(shì)也比一般話題高,說明本文算法是有效的!揪窒蕖繘]有考慮到話題之間的語義關(guān)系!窘Y(jié)論】利用LDA模型對(duì)移動(dòng)投訴話題檢測(cè)初探的方法是比較合理和有效的,對(duì)今后此領(lǐng)域的研究具有一定的借鑒意義。
[Abstract]:[objective] to find out valuable information from a large number of mobile complaint texts by means of Chinese information processing and topic recognition and tracking. [methods] starting with the analysis of the characteristics of complaint texts, Using k-means to cluster the text first. Using LDA to model each class, extract the topic, and calculate the word weight of each topic from three aspects of word frequency, word span and word length, take the words with the largest weight as the label of the topic. The document distribution probability mean of each topic is calculated. For the topic with the same label, the repetitive tagged topic is removed according to the principle of maximum mean value, then the document approval rate is calculated for all topics, and the document approval rating is regarded as the hot spot of the topic. Using heat to distinguish hot topic from general topic. [results] the time model of complaint text is established. By comparing general topic with hot topic, the supporting document rate of hot topic is at least three times as high as that of general topic. The trend of supporting document rate changes is also higher than that of general topics, It shows that this algorithm is effective. [limitation] does not take into account the semantic relationship between topics. [conclusion] the method of using LDA model to detect mobile complaint topics is reasonable and effective. It has certain reference significance to the future research in this field.
【作者單位】: 杭州電子科技大學(xué)計(jì)算機(jī)學(xué)院;中國(guó)計(jì)量大學(xué);
【基金】:國(guó)家自然科學(xué)基金青年基金項(xiàng)目“引入涉身認(rèn)知機(jī)制的漢語隱喻計(jì)算模型及其實(shí)現(xiàn)”(項(xiàng)目編號(hào):61103101);國(guó)家自然科學(xué)基金青年基金項(xiàng)目“基于馬爾科夫樹與DRT的漢語句群自動(dòng)劃分算法研究”(項(xiàng)目編號(hào):61202281) 教育部人文社會(huì)科學(xué)研究青年基金項(xiàng)目“面向信息處理的漢語隱喻計(jì)算研究”(項(xiàng)目編號(hào):10YJCZH052)的研究成果之一
【分類號(hào)】:TP391.1

【參考文獻(xiàn)】

相關(guān)期刊論文 前7條

1 關(guān)鵬;王曰芬;;科技情報(bào)分析中LDA主題模型最優(yōu)主題數(shù)確定方法研究[J];現(xiàn)代圖書情報(bào)技術(shù);2016年09期

2 徐佳俊;楊樝;姚天f ;付中陽;;基于LDA模型的論壇熱點(diǎn)話題識(shí)別和追蹤[J];中文信息學(xué)報(bào);2016年01期

3 伍萬坤;吳清烈;顧錦江;;基于EM-LDA綜合模型的電商微博熱點(diǎn)話題發(fā)現(xiàn)[J];現(xiàn)代圖書情報(bào)技術(shù);2015年11期

4 唐曉波;向坤;;基于LDA模型和微博熱度的熱點(diǎn)挖掘[J];圖書情報(bào)工作;2014年05期

5 張培晶;宋蕾;;基于LDA的微博文本主題建模方法研究述評(píng)[J];圖書情報(bào)工作;2012年24期

6 張晨逸;孫建伶;丁軼群;;基于MB-LDA模型的微博主題挖掘[J];計(jì)算機(jī)研究與發(fā)展;2011年10期

7 吳夙慧;成穎;鄭彥寧;潘云濤;;K-means算法研究綜述[J];現(xiàn)代圖書情報(bào)技術(shù);2011年05期

相關(guān)碩士學(xué)位論文 前1條

1 朱穎;基于微博的熱點(diǎn)話題發(fā)現(xiàn)[D];西南大學(xué);2014年

【共引文獻(xiàn)】

相關(guān)期刊論文 前10條

1 崔金棟;杜文強(qiáng);關(guān)楊;羅文達(dá);;微博用戶信息個(gè)性化推薦主題模型LDA演化分析研究[J];情報(bào)科學(xué);2017年08期

2 李婷;陳元春;;基于核距離的聚類算法分析介紹[J];科技展望;2017年21期

3 張申旭;黃震華;;基于多特征的微博熱點(diǎn)主題發(fā)現(xiàn)算法的研究[J];現(xiàn)代計(jì)算機(jī)(專業(yè)版);2017年19期

4 梁珊;邱明濤;馬靜;;基于LDA-WO混合模型的微博話題有序特征抽取研究[J];情報(bào)科學(xué);2017年07期

5 杜秀英;;基于聚類與語義相似分析的多文本自動(dòng)摘要方法[J];情報(bào)雜志;2017年06期

6 張斌;彭其淵;;基于KFAV的中國(guó)鐵路貨運(yùn)客戶細(xì)分方法研究[J];交通運(yùn)輸系統(tǒng)工程與信息;2017年03期

7 孟佳偉;孫紅;;基于Hadoop平臺(tái)的K-means算法優(yōu)化綜述[J];軟件導(dǎo)刊;2017年06期

8 馬林進(jìn);萬良;馬紹菊;楊婷;易輝凡;;基于詞袋模型的分布式拒絕服務(wù)攻擊檢測(cè)[J];計(jì)算機(jī)應(yīng)用;2017年06期

9 喬琳;胡濤;朱金悅;;基于最小生成樹的K-means驢友結(jié)伴推薦算法研究[J];現(xiàn)代商業(yè);2017年16期

10 鄧丹君;姚莉;;基于微博標(biāo)簽和LDA的微博主題提取算法[J];計(jì)算機(jī)與數(shù)字工程;2017年05期

相關(guān)碩士學(xué)位論文 前3條

1 王晶;基于社交媒體的熱點(diǎn)主題挖掘及主題演化分析[D];西南大學(xué);2016年

2 趙寶鈺;基于內(nèi)外部數(shù)據(jù)結(jié)合的港口客戶風(fēng)險(xiǎn)控制系統(tǒng)研究[D];北京交通大學(xué);2016年

3 伍萬坤;面向社交商務(wù)的大數(shù)據(jù)分析方法研究[D];東南大學(xué);2015年

【二級(jí)參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 劉彤;楊冠燦;蔣繼婭;郭魯鋼;;基于多重關(guān)系的專利網(wǎng)絡(luò)演化特征與動(dòng)態(tài)分析——以鋰離子電池領(lǐng)域?yàn)槔齕J];情報(bào)學(xué)報(bào);2014年12期

2 張晗;徐碩;喬曉東;;融合科技文獻(xiàn)內(nèi)外部特征的主題模型發(fā)展綜述[J];情報(bào)學(xué)報(bào);2014年10期

3 范云滿;馬建霞;;基于LDA與新興主題特征分析的新興主題探測(cè)研究[J];情報(bào)學(xué)報(bào);2014年07期

4 唐曉波;向坤;;基于LDA模型和微博熱度的熱點(diǎn)挖掘[J];圖書情報(bào)工作;2014年05期

5 郭紅鈺;;基于信息熵理論的特征權(quán)重算法研究[J];計(jì)算機(jī)工程與應(yīng)用;2013年10期

6 張培晶;宋蕾;;基于LDA的微博文本主題建模方法研究述評(píng)[J];圖書情報(bào)工作;2012年24期

7 趙迎光;安新穎;李勇;賈曉峰;;一種基于生命周期理論的文獻(xiàn)熱點(diǎn)發(fā)現(xiàn)方法——以腫瘤領(lǐng)域?yàn)槔齕J];現(xiàn)代圖書情報(bào)技術(shù);2012年11期

8 王李冬;魏寶剛;袁杰;;基于概率主題模型的文檔聚類[J];電子學(xué)報(bào);2012年11期

9 蔡淑琴;張靜;王e,

本文編號(hào):1563066


資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/1563066.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶ad36e***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com