天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 社科論文 > 圖書檔案論文 >

數(shù)字圖書館中基于統(tǒng)計的自動文本分類方法研究

發(fā)布時間:2020-12-19 16:27
  數(shù)字圖書館是保存大量信息和知識的數(shù)字化資源庫,自動文本分類是數(shù)字圖書館中進(jìn)行信息組織和管理的核心技術(shù)。自動文本分類是在給定的分類體系下,讓計算機(jī)根據(jù)文本的內(nèi)容確定與它相關(guān)聯(lián)的類別。本文在國家科學(xué)數(shù)字圖書館的應(yīng)用背景下,研究基于統(tǒng)計的自動文本分類方法。 為了對文檔進(jìn)行充分表達(dá),本文提出了中文文本多層次特征表示方法。多層次特征表示方法在漢字、常用詞表和專業(yè)詞表三個層次上提取文檔的統(tǒng)計特征,能夠更好地反映文檔的統(tǒng)計分布,提高分類性能。 針對標(biāo)準(zhǔn)KNN算法的不足,本文提出了基于核的距離加權(quán)KNN算法,能夠解決樣本的多峰分布、邊界重疊問題和分類器的精確分類決策問題。 互聯(lián)網(wǎng)和文本庫中有很多經(jīng)過粗分類的訓(xùn)練文本,但普遍存在樣本內(nèi)容重復(fù)和質(zhì)量過差的問題,這嚴(yán)重影響了文本分類器的性能。本文提出基于排序特征的快速冗余文檔檢測算法,去除樣本中冗余文檔。為了解決訓(xùn)練樣本質(zhì)量過差的問題,本文通過重要性分析方法進(jìn)行訓(xùn)練文本選擇。 在國家科學(xué)數(shù)字圖書館中,學(xué)科主題詞表中包含一些語義映射關(guān)系。本文使用互信息度量不同主題詞對不同類別的區(qū)分度,同時利用主題詞表中的語義映射關(guān)系,這種方法混合使用了... 

【文章來源】:中國科學(xué)院大學(xué)(中國科學(xué)院計算技術(shù)研究所)北京市

【文章頁數(shù)】:58 頁

【學(xué)位級別】:碩士

【部分圖文】:

數(shù)字圖書館中基于統(tǒng)計的自動文本分類方法研究


不同詞特征權(quán)重下的分類準(zhǔn)確率

【參考文獻(xiàn)】:
期刊論文
[1]近似鏡像網(wǎng)頁檢測算法的研究與評價[J]. 王建勇,謝正茂,雷鳴,李曉明.  電子學(xué)報. 2000(S1)
[2]關(guān)于統(tǒng)計學(xué)習(xí)理論與支持向量機(jī)[J]. 張學(xué)工.  自動化學(xué)報. 2000(01)
[3]中文文檔自動分類系統(tǒng)的設(shè)計與實(shí)現(xiàn)[J]. 鄒濤,王繼成,黃源,張福炎.  中文信息學(xué)報. 1999(03)
[4]基于向量空間模型的文檔分類系統(tǒng)[J]. 黃萱菁,吳立德.  模式識別與人工智能. 1998(02)
[5]漢語語料的自動分類[J]. 吳軍,王作英,禹鋒,王俠.  中文信息學(xué)報. 1995(04)



本文編號:2926216

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/tushudanganlunwen/2926216.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶c5f2b***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com