天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 軟件論文 >

基于聚類與LDA的新聞評論主題挖掘研究

發(fā)布時間:2017-05-16 14:22

  本文關鍵詞:基于聚類與LDA的新聞評論主題挖掘研究,由筆耕文化傳播整理發(fā)布。


【摘要】:新聞評論反映民眾對新聞事件的觀點,挖掘評論主題,對用戶、企業(yè)、政府都具有很高的情報分析價值。我們經(jīng)常對新聞及其評論有這些需求,第一:如何用簡單的語言提取新聞評論,進行研究。第二,對于一系列新聞,提取新聞的評論主題與比例可以幫助人們了解新聞媒體及普通民眾的態(tài)度傾向。我們還想獲得各個主題隨著事態(tài)的發(fā)展會如何變化,例如何時開始,變強,衰弱,結束或者變異成其他的主題。對于第一個問題。這篇論文提出了基于Python的動態(tài)網(wǎng)頁爬蟲算法,解決了采集動態(tài)網(wǎng)頁評論的問題。其中,這篇論文使用靜態(tài)網(wǎng)頁信息構造動態(tài)鏈接,根據(jù)基于Python的動態(tài)網(wǎng)頁評論爬蟲算法實現(xiàn)了評論收集程序。最后將它與通用爬蟲算法進行比較,證實了該算法具有針對性強、數(shù)據(jù)采集速度快、易嵌入開發(fā)、簡單等優(yōu)點,為不善于編程的新聞、文學、管理等學科的研究者提供了快速獲取評論信息的方法。對于第二個需求:這篇論文提出了基于LDA的主題挖掘改進算法,它可以改善原有LDA算法應用在評論數(shù)據(jù)中的弊端。基于LDA的主題挖掘算法應用到新聞評論這些短文本中時,會出現(xiàn)精度不高,效率降低等現(xiàn)象。而且評論文本矩陣由于維度過高,還會造成程序溢出,速度過慢等問題。所以,改進模型根據(jù)LDA對文本順序不敏感的特點,把相同時間段的評論化為一個文本塊。接著,為解決同一文本塊的內的相同評論重復率過高的問題,改進模型對各文本塊進行簡化。最后,改進算法的優(yōu)良特性有利于管理者和政策制定者利用評論情報信息進行決策。然而,由于基于LDA的算法不便于理解主題,這篇論文提出了基于改進K-均值聚類的主題挖掘算法,它可以有效的抽取評論主題及對應比例,并作主題演化分析。其中,基于K-均值聚類的主題挖掘算法直接應用到新聞評論中時,在歐氏距離下,如果使用最大距離法選初始點則會聚成一大類。為解決這個問題,論文首先在預處理階段增加同義詞替換和自動構建領域詞典的部分,改善了數(shù)據(jù)稀疏性和高維性。其次,提出了K-均值聚類改進算法,用隱藏長評論-最大距離法選初始點,解決了初始點多為離群點的問題,用方差拐點確定K值,解決了預先設定聚類個數(shù)的問題,實驗發(fā)現(xiàn)了先用BW權重選初始點,再用新提出的BW-DF權重聚類的效果最好。最后,將改進算法與原算法的聚類效果比較,實驗結果表明,改進算法準確率高,挖掘新聞評論主題的效果明顯。
【關鍵詞】:Python語言 動態(tài)網(wǎng)頁評論爬蟲 改進K均值聚類 LDA改進模型 主體挖掘
【學位授予單位】:武漢紡織大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP391.1
【目錄】:
  • 摘要4-5
  • Abstract5-10
  • 1 緒論10-14
  • 1.1 研究背景及意義10
  • 1.2 國內外研究現(xiàn)狀10-12
  • 1.3 本文研究內容12-13
  • 1.4 本文組織結構13
  • 1.5 本章小節(jié)13-14
  • 2 相關理論與技術14-31
  • 2.1 爬取評論信息14-19
  • 2.1.1 網(wǎng)絡爬蟲概念及簡介15-16
  • 2.1.2 采用的爬蟲語言16-19
  • 2.1.3 評論文本的保存19
  • 2.2 評論文本預處理19-21
  • 2.2.1 簡繁體轉換20
  • 2.2.2 同義詞替換20
  • 2.2.3 數(shù)據(jù)清理20
  • 2.2.4 分詞20-21
  • 2.2.5 刪除停用詞21
  • 2.3 評論文本特征表示21-24
  • 2.3.1 文檔表示模型21-22
  • 2.3.2 特征項權重計算22
  • 2.3.3 特征降維22-24
  • 2.4 評論文本聚類24-27
  • 2.4.1 常用聚類算法25
  • 2.4.2 K均值聚類及面臨的問題25-27
  • 2.5 概率主體模型27-28
  • 2.5.1 常用主題模型算法27-28
  • 2.5.2 LDA模型及面臨的問題28
  • 2.6 主題挖掘28-30
  • 2.6.1 主題挖掘定義28-29
  • 2.6.2 主題挖掘的分類29
  • 2.6.3 基于聚類和LDA的主題挖掘算法對比29-30
  • 2.7 本章小結30-31
  • 3 基于Python的動態(tài)評論網(wǎng)頁爬蟲31-40
  • 3.1 評論網(wǎng)頁爬蟲的相關問題31-32
  • 3.1.1 動態(tài)評論網(wǎng)頁特點31
  • 3.1.2 python語言的爬取特性31
  • 3.1.3 聚焦爬蟲算法31-32
  • 3.2 基于Python的動態(tài)網(wǎng)頁爬蟲算法32
  • 3.3 動態(tài)網(wǎng)頁評論爬蟲算法操作流程與爬蟲程序32-38
  • 3.3.1 靜態(tài)URL構造動態(tài)URL32-34
  • 3.3.2 獲取該Ajax請求返回的Json數(shù)據(jù)34
  • 3.3.3 解析Json數(shù)據(jù)并保存結果34-36
  • 3.3.4 停止條件36
  • 3.3.5 程序及結果36-37
  • 3.3.6 特殊情況37-38
  • 3.4 對比分析38-39
  • 3.5 本章小結39-40
  • 4 基于改進LDA的新聞評論主題挖掘40-59
  • 4.1 新聞評論40-43
  • 4.1.1 新聞評論相關概念40-41
  • 4.1.2 針對LDA新聞評論數(shù)據(jù)特點41-43
  • 4.1.3 基于LDA的新聞評論主題挖掘43
  • 4.2 基于LDA的主題挖掘改進算法43-45
  • 4.2.1 原LDA主題挖掘算法在新聞評論中的不足43-44
  • 4.2.2 基于LDA的主題挖掘改進算法44-45
  • 4.3 基于LDA的新聞評論主題挖掘改進算法的過程及程序45-52
  • 4.3.1 系列新聞評論文本的爬取47
  • 4.3.2 語料標記47-48
  • 4.3.3 插入的過程(合并同段的評論并對它簡化)48
  • 4.3.4 文檔建模處理(l_1,l_2,...l_m )48-51
  • 4.3.5 評論主題挖掘分析51-52
  • 4.3.6 可視化分析52
  • 4.4 實驗結果52-57
  • 4.4.1 對新聞評論用原lda算法聚類52-56
  • 4.4.2 對新聞評論用lda改進模型算法56-57
  • 4.5 改進LDA與原LDA主題演化算法的比較57-58
  • 4.6 本章小結58-59
  • 5 基于改進K均值聚類的在線新聞評論主題挖掘59-86
  • 5.1 新聞評論59-61
  • 5.1.1 新聞評論針對聚類的新聞評論數(shù)據(jù)特點59-60
  • 5.1.2 基于K均值聚類的主題挖掘算法60-61
  • 5.2 基于改進K均值聚類的主題挖掘算法61-65
  • 5.2.1 K均值聚類在新聞評論數(shù)據(jù)上的不足61
  • 5.2.2 K均值聚類改進61-65
  • 5.2.3 基于改進K均值聚類主題挖掘算法65
  • 5.3 基于改進K均值聚類的新聞評論主題挖掘的過程及程序65-74
  • 5.3.1 系列新聞評論文本的爬取68-69
  • 5.3.2 語料標記69
  • 5.3.3 文檔建模69-73
  • 5.3.4 評論主題挖掘分析73-74
  • 5.3.5 可視化分析74
  • 5.4 實驗結果74-83
  • 5.4.1 爬取新聞評論文本并轉化為結構化數(shù)據(jù)74-76
  • 5.4.2 在余弦距離下用原K-means算法聚類76
  • 5.4.3 在歐式距離下用原K-means算法聚類76-77
  • 5.4.4 在歐式距離下用改進的K-means聚類77-81
  • 5.4.5 基于改進的K-means聚類的主題挖掘81-83
  • 5.5 改進的K-means聚類算法與原K-means聚類算法結果比較83-84
  • 5.5.1 改進算法與在歐式距離下用原K-means算法比較聚類效果83
  • 5.5.2 在歐氏距離下的改進算法與在余弦距離下用原算法聚類83-84
  • 5.6 本章小結84-86
  • 6 結論86-87
  • 參考文獻87-90
  • 附錄90-120
  • 致謝120

【相似文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 魏天真;試論新聞評論的特殊價值[J];華中師范大學學報(人文社會科學版);2000年04期

2 程道杰;試論新時期新聞評論的發(fā)展走勢[J];新聞愛好者;2000年02期

3 ;新聞評論中的“亮點”[J];新聞與寫作;2000年08期

4 王明生;聯(lián)想:新聞評論與讀者的橋梁[J];廣西大學學報(哲學社會科學版);2000年S3期

5 李一軍;營造新聞評論的事趣[J];聲屏世界;2000年03期

6 李曉峰;試論新聞評論中的“亮點”[J];新聞前哨;2000年01期

7 陳曦;高擎旗幟 鑄造靈魂——對新時期新聞評論地位作用的再認識[J];揚州大學學報(人文社會科學版);2000年06期

8 貝莉莉;;新聞評論的平民化與旗幟意識[J];新聞三昧;2000年10期

9 錢國宏;;擦亮新聞評論的“眼睛”[J];記者搖籃;2000年07期

10 吳震華;新聞評論說理的幽默技巧[J];新聞愛好者;2001年07期

中國重要會議論文全文數(shù)據(jù)庫 前4條

1 肖鴻波;唐敦摯;婁本峰;;體育新聞評論的發(fā)展趨勢研究[A];第八屆全國體育科學大會論文摘要匯編(一)[C];2007年

2 覃信源;賴宏達;;《談網(wǎng)民新聞評論心理》[A];第五屆全國新聞與傳播心理研討會暨中國心理學會新聞與傳播心理專業(yè)委員會第二屆年會論文集[C];2005年

3 曹光煜;;當前報紙政論性新聞評論在輿論監(jiān)督中的特點及問題[A];中國傳媒大學第六屆全國新聞學與傳播學博士生學術研討會論文集[C];2012年

4 胡沈明;;新聞定義新考——關于新聞定義中到底該不該包含評述的思辨[A];中國傳媒大學第三屆全國新聞學與傳播學博士生學術研討會論文集[C];2009年

中國重要報紙全文數(shù)據(jù)庫 前10條

1 胡運熾;新聞評論的輿論引導功能[N];中華新聞報;2003年

2 亢振洲;試論新聞評論的新聞性[N];中華新聞報;2006年

3 楊冶青;新聞評論的取舍原則[N];甘肅日報;2007年

4 復旦新聞學院院長、教授 趙凱;新聞評論要謹防評多論少[N];嘉興日報;2007年

5 李家連;新聞評論的地域指導性[N];中華新聞報;2008年

6 喬新生;新聞評論中的定性與定量分析[N];中華新聞報;2008年

7 龔立堂;媒體的影響力離不開新聞評論[N];中華新聞報;2008年

8 楊恒;新聞評論引導輿論的原則[N];甘肅日報;2010年

9 孫宏波;如何增強新聞評論的可讀性[N];吉林日報;2010年

10 王廷昕 貴州電視臺;新聞評論也應與時俱進[N];經(jīng)濟信息時報;2009年

中國博士學位論文全文數(shù)據(jù)庫 前5條

1 胡沈明;現(xiàn)代新聞評論寬容意識研究[D];華中科技大學;2011年

2 董育寧;新聞評論語篇的語言研究[D];復旦大學;2007年

3 尚媛媛;法治認同建構中的新聞評論作用機制與表現(xiàn)[D];華中科技大學;2014年

4 張瑩;在線新聞評論的情感分析研究[D];南開大學;2013年

5 翁玉蓮;報刊新聞評論話語的功能語法分析[D];福建師范大學;2007年

中國碩士學位論文全文數(shù)據(jù)庫 前10條

1 肖雪;博客新聞評論的特點及功能研究[D];河北大學;2007年

2 成瑞艷;博客新聞評論研究[D];重慶師范大學;2011年

3 要清華;比喻在新聞評論中的應用研究[D];河北大學;2005年

4 趙強;古代論辯藝術對新聞評論改革創(chuàng)新的借鑒意義[D];河北大學;2005年

5 藍暉焰;中美新聞評論比較研究[D];華中科技大學;2005年

6 齊亞寧;網(wǎng)絡體育新聞評論及其疏導研究[D];西北大學;2007年

7 唐琳;論報紙新聞評論風格[D];湖南大學;2007年

8 周宇;新聞評論在當代的發(fā)展研究[D];湖南大學;2007年

9 陳博宇;我國網(wǎng)絡體育新聞評論發(fā)展現(xiàn)狀及其對策研究[D];武漢體育學院;2012年

10 李玉蓮;中國市場經(jīng)濟條件下新聞評論的變革與創(chuàng)新[D];湖北大學;2013年


  本文關鍵詞:基于聚類與LDA的新聞評論主題挖掘研究,,由筆耕文化傳播整理發(fā)布。



本文編號:371106

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/371106.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶3cca9***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com