天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 軟件論文 >

面向不平衡電商評(píng)論文本的改進(jìn)樸素貝葉斯分類模型研究

發(fā)布時(shí)間:2021-07-21 10:44
  文本挖掘是數(shù)據(jù)挖掘中的重要研究方向之一,本文選取較熱門(mén)的電商評(píng)論數(shù)據(jù)情感分類作為應(yīng)用場(chǎng)景。隨著海量的訂單數(shù)量每天產(chǎn)生巨大好評(píng)或差評(píng)數(shù)據(jù),手動(dòng)的人工分類會(huì)耗費(fèi)大量的人力物力,若此時(shí)應(yīng)用文本情感分類的方法,則會(huì)達(dá)到省時(shí)省力的效果。在文本分類領(lǐng)域中,樸素貝葉斯方法是常用的分類模型,有著高效且快速的特點(diǎn)。但針對(duì)電商商品的評(píng)論數(shù)據(jù),其有著較嚴(yán)重的樣本不平衡特點(diǎn),即用戶給予好評(píng)的樣本數(shù)量遠(yuǎn)大于用戶給予差評(píng)的樣本數(shù)量,若不進(jìn)行適當(dāng)?shù)奶幚?分類的結(jié)果會(huì)向多數(shù)類傾斜,少數(shù)類樣本很難被識(shí)別處理,會(huì)嚴(yán)重影響分類模型的效果。本文的研究目的便是針對(duì)電商商品評(píng)論數(shù)據(jù)具有樣本不平衡的特點(diǎn),對(duì)樸素貝葉斯算法進(jìn)行改進(jìn),能有效提高模型在不平衡樣本下的分類準(zhǔn)確率。為提高不平衡電商評(píng)論數(shù)據(jù)的分類成功率,本文主要從樣本空間、模型算法、集成模型三個(gè)方面開(kāi)展工作:(1)對(duì)于不平衡數(shù)據(jù)的樣本空間,若不加以改造,那么分類的結(jié)果會(huì)較容易偏向類別較多的樣本,本文則結(jié)合欠采樣方法以及基于word2vec的詞移距離進(jìn)行判斷,從多數(shù)類樣本中采用欠采樣方法選擇出詞移距離與待預(yù)測(cè)樣本較近的若干個(gè)樣本,從而構(gòu)造出新的平衡訓(xùn)練樣本。(2)在對(duì)平衡樣本構(gòu)... 

【文章來(lái)源】:廣州大學(xué)廣東省

【文章頁(yè)數(shù)】:56 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

面向不平衡電商評(píng)論文本的改進(jìn)樸素貝葉斯分類模型研究


CBOW與skip-gram原理示意圖

【參考文獻(xiàn)】:
期刊論文
[1]不平衡數(shù)據(jù)分類方法綜述[J]. 李艷霞,柴毅,胡友強(qiáng),尹宏鵬.  控制與決策. 2019(04)
[2]基于改進(jìn)特征加權(quán)的樸素貝葉斯分類算法[J]. 丁月,汪學(xué)明.  計(jì)算機(jī)應(yīng)用研究. 2019(12)
[3]不平衡數(shù)據(jù)分類研究綜述[J]. 趙楠,張小芳,張利軍.  計(jì)算機(jī)科學(xué). 2018(S1)
[4]不平衡數(shù)據(jù)分類研究綜述[J]. 陳湘濤,高亞靜.  邵陽(yáng)學(xué)院學(xué)報(bào)(自然科學(xué)版). 2017(02)
[5]基于樸素貝葉斯的Web文本分類及其應(yīng)用[J]. 包小兵.  電腦知識(shí)與技術(shù). 2016(30)
[6]面向新聞?lì)I(lǐng)域的中文文本分類研究綜述[J]. 薛春香,張玉芳.  圖書(shū)情報(bào)工作. 2013(14)
[7]AdaBoost算法研究進(jìn)展與展望[J]. 曹瑩,苗啟廣,劉家辰,高琳.  自動(dòng)化學(xué)報(bào). 2013(06)
[8]基于支持向量機(jī)的不平衡數(shù)據(jù)分類的改進(jìn)欠采樣方法[J]. 趙自翔,王廣亮,李曉東.  中山大學(xué)學(xué)報(bào)(自然科學(xué)版). 2012(06)
[9]面向不平衡文本的特征選擇方法[J]. 廖一星,潘雪增.  電子科技大學(xué)學(xué)報(bào). 2012(04)
[10]非平衡數(shù)據(jù)集的改進(jìn)SMOTE再抽樣算法[J]. 薛薇.  統(tǒng)計(jì)研究. 2012(06)

碩士論文
[1]文本分類中特征選擇算法研究[D]. 陳雨杰.哈爾濱工業(yè)大學(xué) 2015
[2]不平衡數(shù)據(jù)集分類算法的研究[D]. 孟軍.南京理工大學(xué) 2014



本文編號(hào):3294871

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/3294871.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶109a5***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com