天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

分布式短文本數據流分類方法研究

發(fā)布時間:2021-09-17 17:51
  實際應用領域涌現出大量的短文本數據流,如:微博數據、實時彈幕和實時評論等。其主要具有兩大特點:一方面每個文本都十分短小,缺少充分的上下文語義信息;另一方面,隨著時間推移,文本流快速海量涌現,且其類標簽分布也在不斷發(fā)生變化。上述特點導致在短文本數據流分類時出現信息稀疏、歧義、概念漂移等問題,使得傳統的文本分類方法難以直接應用。因此,如何快速有效地處理海量實時的短文本數據流,成為實際應用領域數據流挖掘的重要而富有挑戰(zhàn)的任務之一;诖,本文開展了分布式短文本數據流分類方法研究,主要研究工作包括:(1)為了解決信息稀疏、歧義、概念漂移問題,提出一種基于Word2vec的分布式短文本數據流分類方法。該方法首先使用外部語料庫構建Word2vec詞向量模型完成短文本的向量化過程,通過豐富的語料信息以彌補短文本的信息不足,并獲取訓練過程中的罕見詞構建擴展詞向量庫以降低詞歧義的影響。其次,提出一種分布式Logistic Regression(LR)集成模型用于分類海量實時的短文本數據流,其中分類器參數能隨數據流的到來而不斷地實時更新。同時引入時間因子機制以適應概念漂移環(huán)境。最后,利用Apache Sp... 

【文章來源】:合肥工業(yè)大學安徽省 211工程院校 教育部直屬院校

【文章頁數】:62 頁

【學位級別】:碩士

【部分圖文】:

分布式短文本數據流分類方法研究


Q2全球數字報告2019互聯網用戶增長量Figure1.1Growthof2019NetworkUsersfromQ2GlobalDigitalReport

對比圖,時間性,算法,概念


第三章基于Word2vec的分布式短文本數據流分類方法研究26圖3.6ICM-Word2vec與基準算法在時間性能上的對比Figure3.6ComparisonofICM-Word2vecandbenchmarkalgorithmintime圖3.7ICM-Word2vec與基準算法在概念漂移上的實驗對比Figure3.7ComparisonofICM-Word2vecandbenchmarkalgorithmonconceptdrift高于E.Drift-ensenmble算法。但在數據量較大的場景下,我們方法的時間性能遠遠高于E.Drift-ensenmble算法。在Tweet數據集上的實驗結果也驗證了這一點。一般的,fastText與sk-learn算法在三個數據集的時間代價消耗都低于ICM-Word2vec與E.Drift-ensenmble算法。這是因為在訓練數據時fastText與sk-learn算法未解決短文本的高維稀疏問題,也未考慮其中潛在的概念漂移問題。而ICM-Word2vec與E.Drift-ensenmble算法對上述問題做出了優(yōu)化處理,以一定的時間代價來換取模型準確度的提高。3.3.4.3適應概念漂移的性能表現對比圖3.7展示了所提方法ICM-Word2vec與基準算法在概念漂移問題上的實驗結果對比。從實驗結果可知:ICM-Word2vec算法可以很好地適應概念漂移環(huán)境,并且可以穩(wěn)定分類精度,在發(fā)生概念漂移的數據塊上。原因分析如下:概念漂移發(fā)生的概念都是歷史概念,未產生新概念,當新的數據塊到來時,基準算法會利用新數據塊不斷地更新模型,拋棄了歷史概念,而本章所提方法ICM-Word2vec

對比圖,概念,算法


第三章基于Word2vec的分布式短文本數據流分類方法研究26圖3.6ICM-Word2vec與基準算法在時間性能上的對比Figure3.6ComparisonofICM-Word2vecandbenchmarkalgorithmintime圖3.7ICM-Word2vec與基準算法在概念漂移上的實驗對比Figure3.7ComparisonofICM-Word2vecandbenchmarkalgorithmonconceptdrift高于E.Drift-ensenmble算法。但在數據量較大的場景下,我們方法的時間性能遠遠高于E.Drift-ensenmble算法。在Tweet數據集上的實驗結果也驗證了這一點。一般的,fastText與sk-learn算法在三個數據集的時間代價消耗都低于ICM-Word2vec與E.Drift-ensenmble算法。這是因為在訓練數據時fastText與sk-learn算法未解決短文本的高維稀疏問題,也未考慮其中潛在的概念漂移問題。而ICM-Word2vec與E.Drift-ensenmble算法對上述問題做出了優(yōu)化處理,以一定的時間代價來換取模型準確度的提高。3.3.4.3適應概念漂移的性能表現對比圖3.7展示了所提方法ICM-Word2vec與基準算法在概念漂移問題上的實驗結果對比。從實驗結果可知:ICM-Word2vec算法可以很好地適應概念漂移環(huán)境,并且可以穩(wěn)定分類精度,在發(fā)生概念漂移的數據塊上。原因分析如下:概念漂移發(fā)生的概念都是歷史概念,未產生新概念,當新的數據塊到來時,基準算法會利用新數據塊不斷地更新模型,拋棄了歷史概念,而本章所提方法ICM-Word2vec

【參考文獻】:
期刊論文
[1]結合LDA與Self-Attention的短文本情感分類方法[J]. 陳歡,黃勃,朱翌民,俞雷,余宇新.  計算機工程與應用. 2020(18)
[2]短文本分類技術研究綜述[J]. 鄧丁朋,周亞建,池俊輝,李佳樂.  軟件. 2020(02)
[3]從大數據到大知識:HACE+BigKE[J]. 吳信東,何進,陸汝鈐,鄭南寧.  自動化學報. 2016(07)
[4]基于分布式數據流的大數據分類模型和算法[J]. 毛國君,胡殿軍,謝松燕.  計算機學報. 2017(01)



本文編號:3399220

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3399220.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶4ad4d***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com