數(shù)字圖書館中基于統(tǒng)計的自動文本分類方法研究

發(fā)布時間：2020-12-19 16:27

　　數(shù)字圖書館是保存大量信息和知識的數(shù)字化資源庫，自動文本分類是數(shù)字圖書館中進(jìn)行信息組織和管理的核心技術(shù)。自動文本分類是在給定的分類體系下，讓計算機(jī)根據(jù)文本的內(nèi)容確定與它相關(guān)聯(lián)的類別。本文在國家科學(xué)數(shù)字圖書館的應(yīng)用背景下，研究基于統(tǒng)計的自動文本分類方法。為了對文檔進(jìn)行充分表達(dá)，本文提出了中文文本多層次特征表示方法。多層次特征表示方法在漢字、常用詞表和專業(yè)詞表三個層次上提取文檔的統(tǒng)計特征，能夠更好地反映文檔的統(tǒng)計分布，提高分類性能。針對標(biāo)準(zhǔn)KNN算法的不足，本文提出了基于核的距離加權(quán)KNN算法，能夠解決樣本的多峰分布、邊界重疊問題和分類器的精確分類決策問題。互聯(lián)網(wǎng)和文本庫中有很多經(jīng)過粗分類的訓(xùn)練文本，但普遍存在樣本內(nèi)容重復(fù)和質(zhì)量過差的問題，這嚴(yán)重影響了文本分類器的性能。本文提出基于排序特征的快速冗余文檔檢測算法，去除樣本中冗余文檔。為了解決訓(xùn)練樣本質(zhì)量過差的問題，本文通過重要性分析方法進(jìn)行訓(xùn)練文本選擇。在國家科學(xué)數(shù)字圖書館中，學(xué)科主題詞表中包含一些語義映射關(guān)系。本文使用互信息度量不同主題詞對不同類別的區(qū)分度，同時利用主題詞表中的語義映射關(guān)系，這種方法混合使用了...

【文章來源】：中國科學(xué)院大學(xué)(中國科學(xué)院計算技術(shù)研究所)北京市

【文章頁數(shù)】：58 頁

【學(xué)位級別】：碩士

【部分圖文】：

不同詞特征權(quán)重下的分類準(zhǔn)確率

【參考文獻(xiàn)】：
期刊論文
[1]近似鏡像網(wǎng)頁檢測算法的研究與評價[J]. 王建勇,謝正茂,雷鳴,李曉明.  電子學(xué)報. 2000(S1)
[2]關(guān)于統(tǒng)計學(xué)習(xí)理論與支持向量機(jī)[J]. 張學(xué)工.  自動化學(xué)報. 2000(01)
[3]中文文檔自動分類系統(tǒng)的設(shè)計與實(shí)現(xiàn)[J]. 鄒濤,王繼成,黃源,張福炎.  中文信息學(xué)報. 1999(03)
[4]基于向量空間模型的文檔分類系統(tǒng)[J]. 黃萱菁,吳立德.  模式識別與人工智能. 1998(02)
[5]漢語語料的自動分類[J]. 吳軍,王作英,禹鋒,王俠.  中文信息學(xué)報. 1995(04)

本文編號：2926216

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://www.sikaile.net/tushudanganlunwen/2926216.html

上一篇：基于網(wǎng)絡(luò)直播的公共圖書館閱讀推廣研究——以濟(jì)南市圖書館“交享閱”書房領(lǐng)讀人行動為例
下一篇：我國干部人事檔案管理研究 ——以安徽省干部人事檔案審核工作為視角

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

數(shù)字圖書館中基于統(tǒng)計的自動文本分類方法研究