天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

文本分類TF-IDF算法的改進(jìn)研究

發(fā)布時(shí)間:2021-04-17 11:33
  信息技術(shù)的快速發(fā)展,計(jì)算機(jī)硬件的計(jì)算能力和存儲(chǔ)能力的大幅度提升讓網(wǎng)絡(luò)信息爆炸式增長(zhǎng),給用戶及時(shí)有效地獲取所需信息帶來(lái)一定阻礙。文本分類是使用有標(biāo)記的文本訓(xùn)練集的有監(jiān)督學(xué)習(xí),由分類器訓(xùn)練出的模型將指定類別分配給未知類別的文檔,在一定程度上可以方便用戶獲取信息,提升用戶體驗(yàn)。但是,隨著中國(guó)互聯(lián)網(wǎng)環(huán)境的發(fā)展,大量蘊(yùn)含豐富信息的新詞得以普及。新詞是未被第六屆中文傾向性分析評(píng)測(cè)公開(kāi)的舊詞典所收錄的詞,暫將其與未登錄詞同等看待。新詞的出現(xiàn)降低了中文分詞的合理性和準(zhǔn)確性,從而進(jìn)一步影響到中文文本分類的精度。把文本從非結(jié)構(gòu)化轉(zhuǎn)化為結(jié)構(gòu)化的這一過(guò)程是整個(gè)文本分類工作的基石,特征項(xiàng)的賦值又是其中的重中之重。TF-IDF算法是目前使用頻率最高的特征權(quán)重算法,近些年來(lái)改進(jìn)的特征權(quán)重TF-IDF算法大都局限在特征項(xiàng)出現(xiàn)頻次、位置以及特征項(xiàng)分布這些方面,而未考慮到新詞這一新興詞類的特殊性。因此本文提出基于新詞發(fā)現(xiàn)改進(jìn)特征權(quán)重算法,主要工作在于識(shí)別新詞,并對(duì)特征項(xiàng)中的新詞采用改進(jìn)后的特征權(quán)重算法來(lái)提升權(quán)重。此外,針對(duì)互聯(lián)網(wǎng)語(yǔ)料庫(kù)的特點(diǎn),將新詞識(shí)別加入中文文本分類流程中并結(jié)合改進(jìn)后的特征權(quán)重算法去改善文本分類流程。同... 

【文章來(lái)源】:合肥工業(yè)大學(xué)安徽省 211工程院校 教育部直屬院校

【文章頁(yè)數(shù)】:69 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

文本分類TF-IDF算法的改進(jìn)研究


TFIDF、TFIDF&NewTerm和NewTFIDF&NewTerm分類效果對(duì)比圖

分類器,語(yǔ)料庫(kù),多項(xiàng)式


圖 4.2 MB、KNN 和 SVC 分類器在搜狗語(yǔ)料庫(kù)上的分類效果對(duì)比圖Comparison of the classification on the Sogou corpus of MB, KNN and SVC4.2 中得出,多項(xiàng)式樸素貝葉斯分類器和SVC 分類器的F1值間器和 KNN 分類器的 F1 值間存在交叉,但就整體效果來(lái)看,多類器的效果優(yōu)于 SVC 分類器優(yōu)于 KNN 分類器。第二個(gè)語(yǔ)料庫(kù)(新浪新聞?wù)Z料庫(kù)),本文依次采用多項(xiàng)式樸素貝 分類器和 KNN 分類器就識(shí)別新詞的同時(shí)采用改進(jìn)的 TF-IDF 算作出圖 4.3,進(jìn)一步比較三種分類算法的優(yōu)劣,以此期望選出實(shí)器應(yīng)用到這些類別分類需求的實(shí)際項(xiàng)目工作中。

分類器,語(yǔ)料庫(kù),多項(xiàng)式


圖 4.2 MB、KNN 和 SVC 分類器在搜狗語(yǔ)料庫(kù)上的分類效果對(duì)比圖Comparison of the classification on the Sogou corpus of MB, KNN and SVC4.2 中得出,多項(xiàng)式樸素貝葉斯分類器和SVC 分類器的F1值間器和 KNN 分類器的 F1 值間存在交叉,但就整體效果來(lái)看,多類器的效果優(yōu)于 SVC 分類器優(yōu)于 KNN 分類器。第二個(gè)語(yǔ)料庫(kù)(新浪新聞?wù)Z料庫(kù)),本文依次采用多項(xiàng)式樸素貝 分類器和 KNN 分類器就識(shí)別新詞的同時(shí)采用改進(jìn)的 TF-IDF 算作出圖 4.3,進(jìn)一步比較三種分類算法的優(yōu)劣,以此期望選出實(shí)器應(yīng)用到這些類別分類需求的實(shí)際項(xiàng)目工作中。

【參考文獻(xiàn)】:
期刊論文
[1]基于標(biāo)記依賴關(guān)系集成分類器鏈的多示例多標(biāo)簽支持向量機(jī)算法[J]. 李村合,王文杰.  計(jì)算機(jī)系統(tǒng)應(yīng)用. 2017(04)
[2]面向網(wǎng)絡(luò)語(yǔ)言基于微博語(yǔ)料的新詞發(fā)現(xiàn)方法[J]. 雷一鳴,劉勇,霍華.  計(jì)算機(jī)工程與設(shè)計(jì). 2017(03)
[3]一種基于改進(jìn)的TF-IDF和支持向量機(jī)的中文文本分類研究[J]. 郭太勇.  軟件. 2016(12)
[4]一種改進(jìn)的CHI文本特征選擇方法[J]. 樊存佳,汪友生,王雨婷.  計(jì)算機(jī)與現(xiàn)代化. 2016(11)
[5]基于改進(jìn)互信息和鄰接熵的微博新詞發(fā)現(xiàn)方法[J]. 夭榮朋,許國(guó)艷,宋健.  計(jì)算機(jī)應(yīng)用. 2016(10)
[6]基于改進(jìn)TF-IDF算法的文本分類方法研究[J]. 賀科達(dá),朱錚濤,程昱.  廣東工業(yè)大學(xué)學(xué)報(bào). 2016(05)
[7]多類文本分類算法GS-SVDD[J]. 吳德,劉三陽(yáng),梁錦錦.  計(jì)算機(jī)科學(xué). 2016(08)
[8]基于改進(jìn)的TF-IDF算法的微博話題檢測(cè)[J]. 陳朔鷹,金鎮(zhèn)晟.  科技導(dǎo)報(bào). 2016(02)
[9]基于互信息改進(jìn)算法的新詞發(fā)現(xiàn)對(duì)中文分詞系統(tǒng)改進(jìn)[J]. 杜麗萍,李曉戈,于根,劉春麗,劉睿.  北京大學(xué)學(xué)報(bào)(自然科學(xué)版). 2016(01)
[10]基于詞內(nèi)部結(jié)合度和邊界自由度的新詞發(fā)現(xiàn)[J]. 李文坤,張仰森,陳若愚.  計(jì)算機(jī)應(yīng)用研究. 2015(08)

碩士論文
[1]基于深度學(xué)習(xí)的知乎標(biāo)題的多標(biāo)簽文本分類[D]. 張闖.北京交通大學(xué) 2018
[2]基于多元特征融合和LSTM神經(jīng)網(wǎng)絡(luò)的中文評(píng)論情感分析[D]. 李科.太原理工大學(xué) 2017
[3]常用文本分類算法的分析與研究[D]. 楊康.重慶大學(xué) 2017
[4]基于規(guī)則與統(tǒng)計(jì)相融合的微博新詞發(fā)現(xiàn)研究[D]. 周霜霜.北京交通大學(xué) 2017
[5]對(duì)TF-IDF算法的改進(jìn)及實(shí)驗(yàn)研究[D]. 何曉靜.吉林大學(xué) 2017
[6]基于互信息的自適應(yīng)卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建方法研究[D]. 潘飛.北京工業(yè)大學(xué) 2015
[7]中文文本分類特征選擇方法的研究與實(shí)現(xiàn)[D]. 林艷峰.西安電子科技大學(xué) 2014
[8]基于信息增益和信息熵的特征詞權(quán)重計(jì)算研究[D]. 李海瑞.重慶大學(xué) 2012
[9]針對(duì)特定領(lǐng)域的中文新詞發(fā)現(xiàn)技術(shù)研究[D]. 李明.南京航空航天大學(xué) 2012
[10]中文文本分類中分詞和特征選擇方法研究[D]. 李原.吉林大學(xué) 2011



本文編號(hào):3143379

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3143379.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶dd094***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com