面向不平衡電商評(píng)論文本的改進(jìn)樸素貝葉斯分類模型研究
發(fā)布時(shí)間:2021-07-21 10:44
文本挖掘是數(shù)據(jù)挖掘中的重要研究方向之一,本文選取較熱門(mén)的電商評(píng)論數(shù)據(jù)情感分類作為應(yīng)用場(chǎng)景。隨著海量的訂單數(shù)量每天產(chǎn)生巨大好評(píng)或差評(píng)數(shù)據(jù),手動(dòng)的人工分類會(huì)耗費(fèi)大量的人力物力,若此時(shí)應(yīng)用文本情感分類的方法,則會(huì)達(dá)到省時(shí)省力的效果。在文本分類領(lǐng)域中,樸素貝葉斯方法是常用的分類模型,有著高效且快速的特點(diǎn)。但針對(duì)電商商品的評(píng)論數(shù)據(jù),其有著較嚴(yán)重的樣本不平衡特點(diǎn),即用戶給予好評(píng)的樣本數(shù)量遠(yuǎn)大于用戶給予差評(píng)的樣本數(shù)量,若不進(jìn)行適當(dāng)?shù)奶幚?分類的結(jié)果會(huì)向多數(shù)類傾斜,少數(shù)類樣本很難被識(shí)別處理,會(huì)嚴(yán)重影響分類模型的效果。本文的研究目的便是針對(duì)電商商品評(píng)論數(shù)據(jù)具有樣本不平衡的特點(diǎn),對(duì)樸素貝葉斯算法進(jìn)行改進(jìn),能有效提高模型在不平衡樣本下的分類準(zhǔn)確率。為提高不平衡電商評(píng)論數(shù)據(jù)的分類成功率,本文主要從樣本空間、模型算法、集成模型三個(gè)方面開(kāi)展工作:(1)對(duì)于不平衡數(shù)據(jù)的樣本空間,若不加以改造,那么分類的結(jié)果會(huì)較容易偏向類別較多的樣本,本文則結(jié)合欠采樣方法以及基于word2vec的詞移距離進(jìn)行判斷,從多數(shù)類樣本中采用欠采樣方法選擇出詞移距離與待預(yù)測(cè)樣本較近的若干個(gè)樣本,從而構(gòu)造出新的平衡訓(xùn)練樣本。(2)在對(duì)平衡樣本構(gòu)...
【文章來(lái)源】:廣州大學(xué)廣東省
【文章頁(yè)數(shù)】:56 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
CBOW與skip-gram原理示意圖
【參考文獻(xiàn)】:
期刊論文
[1]不平衡數(shù)據(jù)分類方法綜述[J]. 李艷霞,柴毅,胡友強(qiáng),尹宏鵬. 控制與決策. 2019(04)
[2]基于改進(jìn)特征加權(quán)的樸素貝葉斯分類算法[J]. 丁月,汪學(xué)明. 計(jì)算機(jī)應(yīng)用研究. 2019(12)
[3]不平衡數(shù)據(jù)分類研究綜述[J]. 趙楠,張小芳,張利軍. 計(jì)算機(jī)科學(xué). 2018(S1)
[4]不平衡數(shù)據(jù)分類研究綜述[J]. 陳湘濤,高亞靜. 邵陽(yáng)學(xué)院學(xué)報(bào)(自然科學(xué)版). 2017(02)
[5]基于樸素貝葉斯的Web文本分類及其應(yīng)用[J]. 包小兵. 電腦知識(shí)與技術(shù). 2016(30)
[6]面向新聞?lì)I(lǐng)域的中文文本分類研究綜述[J]. 薛春香,張玉芳. 圖書(shū)情報(bào)工作. 2013(14)
[7]AdaBoost算法研究進(jìn)展與展望[J]. 曹瑩,苗啟廣,劉家辰,高琳. 自動(dòng)化學(xué)報(bào). 2013(06)
[8]基于支持向量機(jī)的不平衡數(shù)據(jù)分類的改進(jìn)欠采樣方法[J]. 趙自翔,王廣亮,李曉東. 中山大學(xué)學(xué)報(bào)(自然科學(xué)版). 2012(06)
[9]面向不平衡文本的特征選擇方法[J]. 廖一星,潘雪增. 電子科技大學(xué)學(xué)報(bào). 2012(04)
[10]非平衡數(shù)據(jù)集的改進(jìn)SMOTE再抽樣算法[J]. 薛薇. 統(tǒng)計(jì)研究. 2012(06)
碩士論文
[1]文本分類中特征選擇算法研究[D]. 陳雨杰.哈爾濱工業(yè)大學(xué) 2015
[2]不平衡數(shù)據(jù)集分類算法的研究[D]. 孟軍.南京理工大學(xué) 2014
本文編號(hào):3294871
【文章來(lái)源】:廣州大學(xué)廣東省
【文章頁(yè)數(shù)】:56 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
CBOW與skip-gram原理示意圖
【參考文獻(xiàn)】:
期刊論文
[1]不平衡數(shù)據(jù)分類方法綜述[J]. 李艷霞,柴毅,胡友強(qiáng),尹宏鵬. 控制與決策. 2019(04)
[2]基于改進(jìn)特征加權(quán)的樸素貝葉斯分類算法[J]. 丁月,汪學(xué)明. 計(jì)算機(jī)應(yīng)用研究. 2019(12)
[3]不平衡數(shù)據(jù)分類研究綜述[J]. 趙楠,張小芳,張利軍. 計(jì)算機(jī)科學(xué). 2018(S1)
[4]不平衡數(shù)據(jù)分類研究綜述[J]. 陳湘濤,高亞靜. 邵陽(yáng)學(xué)院學(xué)報(bào)(自然科學(xué)版). 2017(02)
[5]基于樸素貝葉斯的Web文本分類及其應(yīng)用[J]. 包小兵. 電腦知識(shí)與技術(shù). 2016(30)
[6]面向新聞?lì)I(lǐng)域的中文文本分類研究綜述[J]. 薛春香,張玉芳. 圖書(shū)情報(bào)工作. 2013(14)
[7]AdaBoost算法研究進(jìn)展與展望[J]. 曹瑩,苗啟廣,劉家辰,高琳. 自動(dòng)化學(xué)報(bào). 2013(06)
[8]基于支持向量機(jī)的不平衡數(shù)據(jù)分類的改進(jìn)欠采樣方法[J]. 趙自翔,王廣亮,李曉東. 中山大學(xué)學(xué)報(bào)(自然科學(xué)版). 2012(06)
[9]面向不平衡文本的特征選擇方法[J]. 廖一星,潘雪增. 電子科技大學(xué)學(xué)報(bào). 2012(04)
[10]非平衡數(shù)據(jù)集的改進(jìn)SMOTE再抽樣算法[J]. 薛薇. 統(tǒng)計(jì)研究. 2012(06)
碩士論文
[1]文本分類中特征選擇算法研究[D]. 陳雨杰.哈爾濱工業(yè)大學(xué) 2015
[2]不平衡數(shù)據(jù)集分類算法的研究[D]. 孟軍.南京理工大學(xué) 2014
本文編號(hào):3294871
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/3294871.html
最近更新
教材專著