天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于改進(jìn)樸素貝葉斯的新聞分類研究

發(fā)布時(shí)間:2021-07-31 05:10
  隨著人工智能的高速發(fā)展和數(shù)據(jù)挖掘技術(shù)的不斷更新,文本分類已經(jīng)成為自然語(yǔ)言處理中最常用的應(yīng)用場(chǎng)景,其在輿情分析、機(jī)器翻譯和聊天機(jī)器人等領(lǐng)域都有廣泛的應(yīng)用,F(xiàn)階段文本分類技術(shù)有很多,但是樸素貝葉斯分類模型(Naive Bayes Classifier,簡(jiǎn)稱NBC)已經(jīng)成為最常用的分類模型之一。樸素貝葉斯分類模型在眾多領(lǐng)域中均有很好的分類性能,但該分類模型也具有一定的局限性,例如需要滿足屬性之間相互獨(dú)立的條件假設(shè),而該條件假設(shè)在實(shí)際應(yīng)用中卻經(jīng)常難以滿足;谠摋l件假設(shè)研究者們從擴(kuò)展結(jié)構(gòu)、特征選擇、特征加權(quán)和樸素貝葉斯模型與其他模型相結(jié)合四個(gè)方面做出了推廣,并取得了較好的效果。本文在前人的研究基礎(chǔ)上,利用主成分分析(Principal Component Analysis,簡(jiǎn)稱PCA)改進(jìn)了樸素貝葉斯分類模型。基于主成分分析的樸素貝葉斯分類模型,簡(jiǎn)稱PCAWNBC模型。本文利用主成分分析的主成分之間是相互獨(dú)立性質(zhì),有效緩解了樸素貝葉斯相互獨(dú)立的條件假設(shè);再利用主成分的方差貢獻(xiàn)率作為屬性的特征權(quán)重,消除了同一屬性對(duì)不同類別具有相同值的(權(quán)重均為1)缺陷。通過(guò)上述的分析后,本... 

【文章來(lái)源】:江西財(cái)經(jīng)大學(xué)江西省

【文章頁(yè)數(shù)】:62 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于改進(jìn)樸素貝葉斯的新聞分類研究


圖2.1分類模型

曲線,回歸模型,數(shù)據(jù)集


2相關(guān)理論概述9圖2.1分類模型2.1.2機(jī)器學(xué)習(xí)回歸機(jī)器學(xué)習(xí)回歸也是監(jiān)督學(xué)習(xí)中重要的問題。機(jī)器學(xué)習(xí)回歸主要用于建立輸入集與輸出集之間的關(guān)系,即是采用監(jiān)督學(xué)習(xí)中的回歸算法,給定自變量預(yù)測(cè)因變量的關(guān)系;貧w問題是根據(jù)數(shù)據(jù)集模擬一條曲面或者曲線,使得這個(gè)面或者線能擬合數(shù)據(jù)集,再依據(jù)該面或者線對(duì)其他數(shù)據(jù)集預(yù)測(cè);貧w模型可分為模型學(xué)習(xí)和模型預(yù)測(cè)兩個(gè)步驟(見圖2.2)。給定訓(xùn)練集:1122{(,),(,),,(,)}nnTxyxyxy圖2.2回歸模型其中ix為樣本數(shù)據(jù),iy表示標(biāo)簽值,i1,2,,n。模型學(xué)習(xí)就是給定合理的回歸模型函數(shù)Yf(X),使用該函數(shù)擬合數(shù)據(jù)集T,求出函數(shù)Yf(X)的各個(gè)參數(shù)。模型預(yù)測(cè)是在學(xué)習(xí)出函數(shù)的各參數(shù)后,給定新的輸入值n1x,通過(guò)模型預(yù)測(cè)。回歸模型可分為線性回歸和非線性回歸,這個(gè)分類是以參數(shù)的類型來(lái)劃分的,

結(jié)構(gòu)圖,結(jié)構(gòu)圖,詞語(yǔ),目標(biāo)詞


基于改進(jìn)樸素貝葉斯的新聞分類研究32其中tw表示訓(xùn)練的目標(biāo)詞語(yǔ),表示tw上下k個(gè)詞語(yǔ)的詞向量之和。圖3.2CBOW和Skip-gram訓(xùn)練結(jié)構(gòu)圖Skip-gram模型的核心思想是通過(guò)中間詞預(yù)測(cè)上下文,該詞決定上下文k個(gè)詞語(yǔ)出現(xiàn)的概率值:11((,,,,)|)tktktktktPwwwww.(3.26)通過(guò)上述可以知道,CBOW模型和Skip-gram模型的核心思想正好相反,COBW模型相比Skip-gram模型的訓(xùn)練速度更快[57],當(dāng)數(shù)據(jù)量上千萬(wàn)集別以上更適合使用CBOW模型的訓(xùn)練更加有效。在計(jì)算上述概率值時(shí),網(wǎng)絡(luò)輸出層采用的是Softmax函數(shù),通過(guò)構(gòu)造霍夫曼二叉樹使兩者的目標(biāo)函數(shù)優(yōu)化為:log(|)ttCOBWtwwCLpwS,(3.27),0log(|)tSkipgramtjtwCkjkjLpww.(3.28)其中C表示語(yǔ)料庫(kù)的維度,通過(guò)圖3.2看到,Word2vec模型并不是通過(guò)訓(xùn)練直接得到各詞語(yǔ)的詞向量,而是通過(guò)神經(jīng)網(wǎng)絡(luò)的權(quán)重參數(shù),再通過(guò)其參數(shù)來(lái)給出目標(biāo)詞的概率值。該權(quán)重參數(shù)是表示詞與詞之間的相關(guān)程度,假設(shè)兩個(gè)詞在文中的作用相似或者位置相似,則在wor2vec詞向量中也是相似。如“張三喜歡深度學(xué)習(xí)”與“李四喜歡深度學(xué)習(xí)”兩句話,通過(guò)“喜歡深度學(xué)習(xí)”這些詞與可以判定

【參考文獻(xiàn)】:
期刊論文
[1]基于卡方統(tǒng)計(jì)的情感文本分類[J]. 周愛武,馬那那,劉慧婷.  微電子學(xué)與計(jì)算機(jī). 2017(08)
[2]一種基于信息增益的新垃圾郵件特征選擇算法[J]. 李猛,劉元寧.  吉林大學(xué)學(xué)報(bào)(理學(xué)版). 2017(02)
[3]基于改進(jìn)的TF-IDF軟件測(cè)試錯(cuò)誤信息分析方法[J]. 王茹,嚴(yán)明,王柳舒.  計(jì)算機(jī)應(yīng)用. 2016(S2)
[4]Word2vec的核心架構(gòu)及其應(yīng)用[J]. 熊富林,鄧怡豪,唐曉晟.  南京師范大學(xué)學(xué)報(bào)(工程技術(shù)版). 2015(01)
[5]主題網(wǎng)絡(luò)爬蟲研究綜述[J]. 于娟,劉強(qiáng).  計(jì)算機(jī)工程與科學(xué). 2015(02)
[6]中文分詞模型的領(lǐng)域適應(yīng)性方法[J]. 韓冬煦,常寶寶.  計(jì)算機(jī)學(xué)報(bào). 2015(02)
[7]貝葉斯機(jī)器學(xué)習(xí)前沿進(jìn)展綜述[J]. 朱軍,胡文波.  計(jì)算機(jī)研究與發(fā)展. 2015(01)
[8]貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)綜述[J]. 李碩豪,張軍.  計(jì)算機(jī)應(yīng)用研究. 2015(03)
[9]基于加權(quán)補(bǔ)集的樸素貝葉斯文本分類算法研究[J]. 杜選.  計(jì)算機(jī)應(yīng)用與軟件. 2014(09)
[10]一種基于粗糙集的特征加權(quán)樸素貝葉斯分類器[J]. 王國(guó)才,張聰.  重慶理工大學(xué)學(xué)報(bào)(自然科學(xué)版). 2010(07)

碩士論文
[1]中文分詞系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)[D]. 張小歡.電子科技大學(xué) 2010
[2]基于改進(jìn)的K-均值算法的樸素貝葉斯分類及應(yīng)用[D]. 李艷.合肥工業(yè)大學(xué) 2007



本文編號(hào):3312833

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/shoufeilunwen/benkebiyelunwen/3312833.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶947dc***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com