天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

基于主成分分析和K近鄰的文件類型識別算法

發(fā)布時間:2018-01-07 17:38

  本文關(guān)鍵詞:基于主成分分析和K近鄰的文件類型識別算法 出處:《計算機應(yīng)用》2016年11期  論文類型:期刊論文


  更多相關(guān)文章: 文件類型識別 字節(jié)頻率分布 主成分分析 K近鄰


【摘要】:為解決基于文件后綴名和文件特征標(biāo)識識別文件類型誤判率較高的問題,在基于文件內(nèi)容識別文件類型的算法基礎(chǔ)上,提出主成分分析(PCA)和K近鄰(KNN)算法相結(jié)合的文件類型識別算法。首先,使用PCA方法對樣本預(yù)處理以降低樣本空間的維數(shù);然后,對降維后的訓(xùn)練樣本集進行聚類處理,即用聚類質(zhì)心代表每種類型的文件;最后,針對訓(xùn)練樣本分布不均勻可能造成的分類誤差,提出基于距離加權(quán)的KNN算法。實驗結(jié)果表明,改進算法在樣本數(shù)較多的情況下,能降低分類的計算復(fù)雜度,并保持了較高的識別正確率;而且該算法不依賴文件類型的特征標(biāo)識,應(yīng)用范圍更為廣泛。
[Abstract]:In order to solve the problem of high error rate of file type recognition based on file suffix name and file feature identification, the algorithm based on file content recognition file type is proposed. A file type recognition algorithm based on principal component analysis (PCA) and K-nearest neighbor (KNN) algorithm is proposed. Firstly, PCA method is used to preprocess the sample to reduce the dimension of the sample space. Then, the training sample set after dimensionality reduction is clustered, that is, the cluster centroid is used to represent each type of file. Finally, aiming at the classification error caused by uneven distribution of training samples, a distance-weighted KNN algorithm is proposed. The experimental results show that the improved algorithm has a large number of samples. It can reduce the computational complexity of classification and maintain a high recognition accuracy. Moreover, the algorithm does not depend on the feature identification of file type, so it is widely used.
【作者單位】: 中國科學(xué)技術(shù)大學(xué)信息科學(xué)技術(shù)學(xué)院;
【基金】:中央高;究蒲袠I(yè)務(wù)費專項資金資助項目(WK2100100024)~~
【分類號】:TP301.6
【正文快照】: 0引言文件類型是指文件存儲在計算機中使用的特殊編碼方式,計算機根據(jù)文件類型來識別內(nèi)部存儲。每一種類型的文件,都對應(yīng)著一種或多種存儲格式和訪問方式。文件類型識別即通過某種途徑判別文件所屬類型的過程。為了保證計算機信息安全,需要設(shè)計出能準(zhǔn)確且快速地判斷出文件的真

【相似文獻】

相關(guān)期刊論文 前10條

1 林和平;楊晨;;模糊主成分分析方法的研究與分析[J];航空計算技術(shù);2006年06期

2 林培龍;;基于主成分分析評價模型的研究與應(yīng)用[J];信息系統(tǒng)工程;2010年05期

3 張磊;;天津市電子信息產(chǎn)品制造業(yè)競爭力分析與評價[J];科技和產(chǎn)業(yè);2011年07期

4 李瑜祥;;主成分分析程序及其應(yīng)用[J];自動化儀表;1987年04期

5 朱寧;主成分分析在選拔競賽隊員中的應(yīng)用[J];桂林電子工業(yè)學(xué)院學(xué)報;1999年02期

6 姜春燕;林和平;劉丁慧;付希金;紀(jì)永鳳;;灰主成分分析研究及其應(yīng)用[J];吉林大學(xué)學(xué)報(信息科學(xué)版);2007年05期

7 周春生;;主成分分析在大學(xué)生成績影響因素研究中的應(yīng)用[J];現(xiàn)代計算機;2013年17期

8 顧紹紅;王永生;王光霞;;主成分分析模型在數(shù)據(jù)處理中的應(yīng)用[J];測繪科學(xué)技術(shù)學(xué)報;2007年05期

9 李雪梅;張素琴;;主成分分析在區(qū)域經(jīng)濟分析中的應(yīng)用[J];計算機工程與應(yīng)用;2009年19期

10 黎夏,葉嘉安;主成分分析與Cellular Automata在空間決策與城市模擬中的應(yīng)用[J];中國科學(xué)(D輯:地球科學(xué));2001年08期

相關(guān)會議論文 前10條

1 么彩蓮;魏寧;;關(guān)于主成分分析的改進方法探討[A];中國現(xiàn)場統(tǒng)計研究會第12屆學(xué)術(shù)年會論文集[C];2005年

2 陳明星;繆柏其;靳韜;;利率影響因素的主成分分析與因子分析[A];中國現(xiàn)場統(tǒng)計研究會第12屆學(xué)術(shù)年會論文集[C];2005年

3 孫曉東;胡勁松;焦s,

本文編號:1393601


資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/1393601.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶964d4***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com