天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

基于訓(xùn)練集裁剪的加權(quán)K近鄰文本分類算法

發(fā)布時(shí)間:2017-12-21 15:32

  本文關(guān)鍵詞:基于訓(xùn)練集裁剪的加權(quán)K近鄰文本分類算法 出處:《情報(bào)工程》2016年06期  論文類型:期刊論文


  更多相關(guān)文章: 文本分類 特征選擇 信息增益 最近鄰分類算法


【摘要】:文本分類是信息檢索領(lǐng)域的重要應(yīng)用之一,由于采用統(tǒng)一特征向量形式表示所有文檔,導(dǎo)致針對每個(gè)文檔的特征向量具有高維性和稀疏性,從而影響文檔分類的性能和精度。為有效提升文本特征選擇的準(zhǔn)確度,本文首先提出基于信息增益的特征選擇函數(shù)改進(jìn)方法,提高特征選擇的精度。KNN(KNearest Neighbor)算法是文本分類中廣泛應(yīng)用的算法,本文針對經(jīng)典KNN計(jì)算量大、類別標(biāo)定函數(shù)精度不高的問題,提出基于訓(xùn)練集裁剪的加權(quán)KNN算法。該算法通過對訓(xùn)練集進(jìn)行裁剪提升了分類算法的計(jì)算效率,通過模糊集的隸屬度函數(shù)提升分類算法的準(zhǔn)確性。在公開數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果及實(shí)驗(yàn)分析證明了算法的有效性。
【作者單位】: 北京理工大學(xué)計(jì)算機(jī)學(xué)院北京市海量語言信息處理與云計(jì)算應(yīng)用工程技術(shù)研究中心;
【基金】:國家973課題(2013CB329605)的資助
【分類號(hào)】:TP391.1
【正文快照】: 1.引言文本分類是處理和組織大規(guī)模文本數(shù)據(jù)的關(guān)鍵技術(shù),其主要任務(wù)是在預(yù)先給定的類別標(biāo)記集合下,根據(jù)文本內(nèi)容判定它的類別,廣泛應(yīng)用于搜索引擎、快速資料分檢、自動(dòng)文摘、信息資料推送和信息過濾等領(lǐng)域。目前關(guān)于文本分類算法的研究很多,主要有基于規(guī)則的決策樹方法、基于連

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 鄭智捷;幻序合并分類算法[J];計(jì)算機(jī)學(xué)報(bào);1984年05期

2 劉t,

本文編號(hào):1316234


資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/1316234.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶c3f39***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com