天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

面向不平衡微博數(shù)據(jù)集的轉(zhuǎn)發(fā)行為預(yù)測方法

發(fā)布時間:2017-10-27 01:03

  本文關(guān)鍵詞:面向不平衡微博數(shù)據(jù)集的轉(zhuǎn)發(fā)行為預(yù)測方法


  更多相關(guān)文章: 集合與微博主題詞集合之間的相似度計算采用向 微博 轉(zhuǎn)發(fā)預(yù)測 不均勻數(shù)據(jù)集 過采樣 隨機(jī)森林


【摘要】:針對微博轉(zhuǎn)發(fā)預(yù)測方法研究中的數(shù)據(jù)集不平衡問題,提出了一種融合過采樣技術(shù)和隨機(jī)森林(RF)算法的微博轉(zhuǎn)發(fā)行為預(yù)測方法。首先,定義了個體信息、社交關(guān)系和微博主題3類與微博轉(zhuǎn)發(fā)行為相關(guān)的特征,并基于信息增益算法實(shí)現(xiàn)了關(guān)鍵特征選取;其次,綜合微博特征數(shù)據(jù)的特點(diǎn)來改進(jìn)少數(shù)類樣本合成過采樣技術(shù)(SMOTE),對原始數(shù)據(jù)集進(jìn)行非參數(shù)概率分布估計,并根據(jù)近似概率分布對數(shù)據(jù)集進(jìn)行過采樣處理,從而使正反例數(shù)據(jù)量達(dá)到平衡;最后,利用隨機(jī)森林算法,依據(jù)微博轉(zhuǎn)發(fā)關(guān)鍵特征進(jìn)行分類器訓(xùn)練,并利用袋外(OOB)數(shù)據(jù)誤差估計來分析和設(shè)置隨機(jī)森林算法的相關(guān)參數(shù)。通過與基于決策樹(DT)、支持向量機(jī)(SVM)、樸素貝葉斯(NB)和隨機(jī)森林等算法的微博轉(zhuǎn)發(fā)預(yù)測方法進(jìn)行對比,所提方法整體性能優(yōu)于基準(zhǔn)方法中性能最優(yōu)的SVM方法,召回率提高了8%,F值提高了5%。實(shí)驗(yàn)結(jié)果表明,所提方法在實(shí)際應(yīng)用中能夠有效提高微博轉(zhuǎn)發(fā)行為預(yù)測的準(zhǔn)確率。
【作者單位】: 西安建筑科技大學(xué)管理學(xué)院;
【關(guān)鍵詞】集合與微博主題詞集合之間的相似度計算采用向 微博 轉(zhuǎn)發(fā)預(yù)測 不均勻數(shù)據(jù)集 過采樣 隨機(jī)森林
【基金】:國家自然科學(xué)基金資助項目(61272458)
【分類號】:TP393.092
【正文快照】: 0引言作為一種基于用戶關(guān)系的互聯(lián)網(wǎng)信息傳播媒介,微博傳播具有時效性、隨機(jī)性、自主性等特點(diǎn),目前已成為互聯(lián)網(wǎng)輿情擴(kuò)散的主要方式,是網(wǎng)絡(luò)大數(shù)據(jù)研究領(lǐng)域的焦點(diǎn)[1]。以騰訊微博為例,截止到2012年底,注冊用戶數(shù)量已達(dá)到5.4億人次,全年的熱門微博創(chuàng)建數(shù)達(dá)2 000萬[2]。轉(zhuǎn)發(fā)是構(gòu)

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前9條

1 于化龍;高尚;趙靖;秦斌;;基于過采樣技術(shù)和隨機(jī)森林的不平衡微陣列數(shù)據(jù)分類方法研究[J];計算機(jī)科學(xué);2012年05期

2 張e,

本文編號:1101214


資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/1101214.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶0aa7b***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com