天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

面向隱式微博主題挖掘系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

發(fā)布時(shí)間:2017-05-06 07:41

  本文關(guān)鍵詞:面向隱式微博主題挖掘系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。


【摘要】:隨著互聯(lián)網(wǎng)的迅速發(fā)展,電商平臺(tái)逐漸成為大眾購買商品的主要渠道,企業(yè)官方微博是服務(wù)于電商平臺(tái)的便于企業(yè)發(fā)布對(duì)外消息、用戶討論評(píng)價(jià)產(chǎn)品的一種新型方式。隨著公司網(wǎng)絡(luò)營銷影響力的增加,與公司相關(guān)的微博文本數(shù)量日益增多,其中隱含著許多與公司密切相關(guān)的話題。挖掘得到其中有價(jià)值的信息可以實(shí)時(shí)監(jiān)控與公司相關(guān)的輿論動(dòng)向,支持公司管理層決策。微博主題檢測(cè)技術(shù)是研究如何對(duì)大量的微博數(shù)據(jù)信息進(jìn)行管理分類,這己經(jīng)成為當(dāng)前微博研究中最熱門的方向之一。主要工作內(nèi)容如下:(1)微博中包含大量的無法分析其主題歸屬的微博。如果一味拋棄將會(huì)大大影響整體主題的輸出,遺漏掉很多微博作者關(guān)心的話題。因此本文在目前已存在的微博主題模型基礎(chǔ)上,著重分析微博的結(jié)構(gòu)和微博間的關(guān)系并結(jié)合概率主題模型設(shè)計(jì)和提出了基于微博轉(zhuǎn)發(fā)評(píng)論關(guān)系和自身上下文關(guān)系的面向隱式微博的主題模型CGRMB-LDA模型。該模型利用微博間評(píng)論關(guān)系、轉(zhuǎn)發(fā)關(guān)系和上下文關(guān)系擴(kuò)展隱式微博來達(dá)到明確隱式微博的主題歸屬的目的,最后采用吉布斯采樣的方法求解模型得到微博-主題和主題-詞匯的概率分布。(2)本文還探討如何快速便捷地利用微博開放平臺(tái)的API接口實(shí)現(xiàn)獲取微博間的評(píng)論轉(zhuǎn)發(fā)關(guān)系來分析處理隱式微博。另外,本文還針對(duì)隱式微博的特點(diǎn)經(jīng)過數(shù)據(jù)預(yù)處理、網(wǎng)絡(luò)符號(hào)替換和情感詞擴(kuò)充使得最后主題模型的輸出更加準(zhǔn)確并帶有一些情感色彩。
【關(guān)鍵詞】:微博 主題挖掘 CGRMB-LDA模型 隱式微博
【學(xué)位授予單位】:東華大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP393.092;TP391.1
【目錄】:
  • 摘要4-6
  • ABSTRACT6-11
  • 第一章 緒論11-19
  • 1.1 研究背景11
  • 1.2 微博及隱式微博11-14
  • 1.2.1 微博11-13
  • 1.2.2 隱式微博13-14
  • 1.3 微博主題挖掘的研究現(xiàn)狀14-16
  • 1.3.1 利用聚類方法挖掘微博主題14-15
  • 1.3.2 利用概率主題模型的方法挖掘微博主題15-16
  • 1.4 隱式微博主題挖掘的主要研究內(nèi)容及難點(diǎn)16-17
  • 1.4.1 隱式微博主題挖掘的主要研究內(nèi)容16
  • 1.4.2 隱式微博挖掘的難點(diǎn)16-17
  • 1.5 結(jié)構(gòu)安排17-18
  • 1.6 本章小結(jié)18-19
  • 第二章 主題模型在微博數(shù)據(jù)上的應(yīng)用19-30
  • 2.1 主題模型19-21
  • 2.1.1 主題模型的輸入19-20
  • 2.1.2 主題模型中的基本假設(shè)20
  • 2.1.3 主題模型的表示20-21
  • 2.1.4 新樣本的推斷21
  • 2.2 主題模型的參數(shù)估計(jì)21-22
  • 2.2.1 EM算法21-22
  • 2.2.2 Gibbs采樣22
  • 2.3 面向隱式微博的主題模型22-28
  • 2.3.1 概率主題模型的由來23
  • 2.3.2 LDA主題模型23-24
  • 2.3.3 面向微博的派生主題模型24-27
  • 2.3.4 考慮隱式微博的主題模型27-28
  • 2.4 各主題模型在微博文本建模上的方法比較28-29
  • 2.5 本章小結(jié)29-30
  • 第三章 面向隱式微博主題挖掘系統(tǒng)算法設(shè)計(jì)30-39
  • 3.1 相關(guān)定義30
  • 3.2 隱式微博顯式化方式探究30-32
  • 3.3 微博生成模型CGRMB-LDA模型32-37
  • 3.3.1 LDA主題模型中的建模算法32-33
  • 3.3.2 CGRMB-LDA模型微博主題生成過程33-37
  • 3.4 評(píng)價(jià)指標(biāo)37-38
  • 3.4.1 人工評(píng)價(jià)Score37
  • 3.4.2 模型困惑度37-38
  • 3.5 本章小結(jié)38-39
  • 第四章 系統(tǒng)實(shí)現(xiàn)39-51
  • 4.1 系統(tǒng)總框架39-40
  • 4.2 獲取微博原始數(shù)據(jù)40-44
  • 4.2.1 微博開放平臺(tái)API40-41
  • 4.2.2 OAuth用戶身份認(rèn)證41
  • 4.2.3 微博API數(shù)據(jù)獲取流程41-44
  • 4.3 隱式微博分詞44-46
  • 4.3.1 中文文本分詞44-45
  • 4.3.2 隱式微博的擴(kuò)充分詞45-46
  • 4.4 隱式微博數(shù)據(jù)預(yù)處理46-47
  • 4.4.1 隱式微博停用詞去除46
  • 4.4.2 隱式微博縮寫詞和網(wǎng)絡(luò)符號(hào)替換46-47
  • 4.4.3 隱式微博情感詞擴(kuò)充47
  • 4.5 使用CGRMB-LDA模型得到微博-主題-詞匯概率分布47-50
  • 4.5.1 得到CGRMB-LDA主題模型的輸入47-48
  • 4.5.2 得到CGRMB-LDA主題模型的輸出48-49
  • 4.5.3 CGRMB-LDA主題模型對(duì)新樣本中主題的預(yù)測(cè)49-50
  • 4.6 本章小結(jié)50-51
  • 第五章 實(shí)驗(yàn)與結(jié)論51-60
  • 5.1 實(shí)驗(yàn)結(jié)果51-55
  • 5.1.1 初始化分詞和數(shù)據(jù)預(yù)處理51-52
  • 5.1.2 隱式微博數(shù)據(jù)處理52
  • 5.1.3 CGRMB-LDA模型主題輸出52-55
  • 5.2 結(jié)果分析55-57
  • 5.3 CGRMB-LDA模型參數(shù)調(diào)整分析57-59
  • 5.3.1 隱式微博在評(píng)論轉(zhuǎn)發(fā)層級(jí)上擴(kuò)充參數(shù)的影響57-58
  • 5.3.2 隱式微博在時(shí)間間隔參數(shù)上擴(kuò)充參數(shù)的影響58-59
  • 5.4 本章小結(jié)59-60
  • 第六章 總結(jié)與展望60-61
  • 參考文獻(xiàn)61-66
  • 附錄1 攻讀碩士學(xué)位期間發(fā)表的學(xué)術(shù)論文66-67
  • 致謝67

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 高俊波;安博文;王曉峰;;在線論壇中潛在影響力主題的發(fā)現(xiàn)研究[J];計(jì)算機(jī)應(yīng)用;2008年01期

2 蔣凡,高俊波,張敏,王煦法;BBS中主題發(fā)現(xiàn)原型系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與應(yīng)用;2005年31期

3 周亦鵬;杜軍平;;基于時(shí)空情境模型的主題跟蹤[J];華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2012年08期

4 陳雄;都云程;李渝勤;施水才;;基于頁面結(jié)構(gòu)分析的論壇主題信息定位方法研究[J];微計(jì)算機(jī)信息;2010年27期

5 關(guān)慧芬;師軍;;基于本體的主題爬蟲技術(shù)研究[J];計(jì)算機(jī)仿真;2009年10期

6 何利益;陸國鋒;羅鵬;;動(dòng)態(tài)新聞主題信息推薦系統(tǒng)設(shè)計(jì)[J];指揮信息系統(tǒng)與技術(shù);2013年04期

7 張宇;宋巍;劉挺;李生;;基于URL主題的查詢分類方法[J];計(jì)算機(jī)研究與發(fā)展;2012年06期

8 歐健文,董守斌,蔡斌;模板化網(wǎng)頁主題信息的提取方法[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年S1期

9 呂聚旺;都云程;王弘蔚;施水才;;基于新型主題信息量化方法的Web主題信息提取研究[J];現(xiàn)代圖書情報(bào)技術(shù);2008年12期

10 朱夢(mèng)麟;李光耀;周毅敏;;基于樹比較的Web頁面主題信息抽取[J];微型機(jī)與應(yīng)用;2011年19期

中國重要會(huì)議論文全文數(shù)據(jù)庫 前7條

1 吳晨;宋丹;薛德軍;師慶輝;;科技主題識(shí)別及表示[A];第五屆全國信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年

2 熊方;王曉宇;鄭駿;周傲英;;ITED:一種基于鏈接的主題提取和主題發(fā)現(xiàn)系統(tǒng)[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2002年

3 王玉婷;杜亞軍;涂騰濤;;基于Web鏈接的主題爬行蟲初始URL的研究[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年

4 馮少卿;都云程;施水才;;基于模板的網(wǎng)頁主題信息抽取[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年

5 王琦;唐世渭;楊冬青;王騰蛟;;基于DOM的網(wǎng)頁主題信息自動(dòng)提取[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2004年

6 刁宇峰;王昊;林鴻飛;楊亮;;博客中重復(fù)評(píng)論發(fā)現(xiàn)[A];中國計(jì)算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年

7 曹紅;袁津生;;多領(lǐng)域主題搜索引擎研究[A];第一屆全國Web信息系統(tǒng)及其應(yīng)用會(huì)議(WISA2004)論文集[C];2004年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 薛耀兵;科技文獻(xiàn)中的主題發(fā)現(xiàn)與趨勢(shì)預(yù)測(cè)[D];哈爾濱工業(yè)大學(xué);2013年

2 陳浩;自定義主題信息抽取的研究與應(yīng)用[D];大連理工大學(xué);2008年

3 郭程;面向多樣性檢索的子主題挖掘技術(shù)的研究[D];沈陽航空航天大學(xué);2014年

4 吳彥文;主題信息合理性、語境意義偏向性對(duì)漢語句子歧義消解的實(shí)驗(yàn)研究[D];陜西師范大學(xué);2002年

5 戴興虎;基于主題的學(xué)術(shù)網(wǎng)絡(luò)構(gòu)建[D];浙江大學(xué);2013年

6 吳曉娜;基于特征、先驗(yàn)和約束的主題建模算法[D];蘇州大學(xué);2014年

7 邸亮;基于主題模型的個(gè)性化信息推薦[D];北京工業(yè)大學(xué);2014年

8 黃文強(qiáng);安卓技術(shù)信息的主題爬蟲技術(shù)研究與實(shí)現(xiàn)[D];東南大學(xué);2015年

9 陳千;主題網(wǎng)絡(luò)爬蟲關(guān)鍵技術(shù)的研究與應(yīng)用[D];北京理工大學(xué);2015年

10 亓?xí)郧?Web挖掘中的主題模型擴(kuò)展[D];北京郵電大學(xué);2013年


  本文關(guān)鍵詞:面向隱式微博主題挖掘系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn),,由筆耕文化傳播整理發(fā)布。



本文編號(hào):347955

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/347955.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶64580***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com