天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于新浪新聞數(shù)據(jù)分析的新聞熱度預測方法研究

發(fā)布時間:2022-08-12 15:34
  我們身處在信息爆炸式增長的時代,有數(shù)據(jù)顯示,截止到2018年6月,我國擁有的手機網(wǎng)民數(shù)量已經(jīng)高達7.88億人次,這個龐大的用戶群體在新聞網(wǎng)站、微博、Facebook、微信等不同的社交平臺上制造著大量的網(wǎng)絡數(shù)據(jù)。目前針對新聞及其評論數(shù)據(jù)的研究比較少,缺乏量化分析。對于網(wǎng)絡新聞而言,新聞評論是其傳播、發(fā)酵的重要組成,從另外一個角度來說,與以往的傳統(tǒng)媒體相比,網(wǎng)絡媒體的傳播深度和廣度是極快極廣泛的,容易形成民眾熱議的輿論事件,導致一些事件的解決難度增加,所以,提前發(fā)現(xiàn)可能成為熱議事件的新聞可以幫助相關監(jiān)管部門監(jiān)測網(wǎng)絡輿情的發(fā)展,避免網(wǎng)絡暴力事件的發(fā)生,利于維護社會的安定。本文首先抓取了新浪新聞娛樂、科技、體育、財經(jīng)、軍事、收藏六個類別的116595條新聞數(shù)據(jù)以及對應的4926412條評論數(shù)據(jù),對數(shù)據(jù)進行清洗并入庫。針對不同類別的新聞,利用NumPy、Pandas、Matplotlib等工具分析了新聞評論的空間分布特征,包括新聞類別、參與討論人數(shù)、新聞發(fā)布時間等因素,從時間上分析評論數(shù)據(jù)的產生過程得到其時間分布特征。接下來以評論數(shù)和點贊數(shù)加權之和作為新聞的熱度值,從小時和周天兩個維度再次分析了... 

【文章頁數(shù)】:74 頁

【學位級別】:碩士

【文章目錄】:
摘要
abstract
1 緒論
    1.1 研究背景與意義
    1.2 國內外研究現(xiàn)狀
        1.2.1 網(wǎng)絡爬蟲技術
        1.2.2 集成學習
        1.2.3 新聞熱度預測
    1.3 論文主要研究內容
    1.4 論文結構安排
2 理論基礎概述
    2.1 網(wǎng)絡爬蟲概述
        2.1.1 網(wǎng)絡爬蟲的定義
        2.1.2 網(wǎng)絡爬蟲的分類
    2.2 回歸算法
        2.2.1 機器學習概述
        2.2.2 常用回歸算法簡介
    2.3 集成學習
        2.3.1 集成學習簡介
        2.3.2 集成學習方法介紹
    2.4 算法評價指標
        2.4.1 均方根誤差
        2.4.2 平均絕對誤差
        2.4.3 決定系數(shù)
    2.5 本章小結
3 網(wǎng)絡新聞數(shù)據(jù)獲取及預處理
    3.1 網(wǎng)絡新聞數(shù)據(jù)獲取及存儲
        3.1.1 數(shù)據(jù)獲取總體設計
        3.1.2 數(shù)據(jù)獲取實現(xiàn)
        3.1.3 數(shù)據(jù)存儲設計
    3.2 數(shù)據(jù)清洗
    3.3 本章小結
4 網(wǎng)絡新聞數(shù)據(jù)分析
    4.1 數(shù)據(jù)分析工具介紹
    4.2 實驗數(shù)據(jù)構成
    4.3 新聞評論分布特征分析
        4.3.1 新聞評論空間分布特征
        4.3.2 新聞評論時間分布特征
    4.4 新聞熱度相關分析
        4.4.1 新聞熱度定義
        4.4.2 以小時為單位分析發(fā)布時間與新聞熱度關系
        4.4.3 以周天為單位分析發(fā)布時間與新聞熱度關系
    4.5 本章小結
5 新聞熱度預測方法研究及實驗分析
    5.1 多元線性回歸算法
        5.1.1 算法原理
        5.1.2 算法實戰(zhàn)
    5.2 KNN算法
        5.2.1 算法原理
        5.2.2 算法實踐
    5.3 梯度提升決策樹算法
        5.3.1 算法原理
        5.3.2 算法實踐
    5.4 改進的集成學習算法
    5.5 實驗結果分析
        5.5.1 實驗環(huán)境
        5.5.2 實驗數(shù)據(jù)
        5.5.3 特征提取
        5.5.4 實驗結果評價指標
        5.5.5 算法實驗結果分析
    5.6 本章小結
6 總結與展望
    6.1 論文研究成果
    6.2 論文中存在的不足
    6.3 未來工作展望
致謝
參考文獻
研究成果及發(fā)表的學術論文



本文編號:3676136

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3676136.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶29275***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com