數(shù)字圖書館中基于統(tǒng)計的自動文本分類方法研究
發(fā)布時間:2020-12-19 16:27
數(shù)字圖書館是保存大量信息和知識的數(shù)字化資源庫,自動文本分類是數(shù)字圖書館中進(jìn)行信息組織和管理的核心技術(shù)。自動文本分類是在給定的分類體系下,讓計算機(jī)根據(jù)文本的內(nèi)容確定與它相關(guān)聯(lián)的類別。本文在國家科學(xué)數(shù)字圖書館的應(yīng)用背景下,研究基于統(tǒng)計的自動文本分類方法。 為了對文檔進(jìn)行充分表達(dá),本文提出了中文文本多層次特征表示方法。多層次特征表示方法在漢字、常用詞表和專業(yè)詞表三個層次上提取文檔的統(tǒng)計特征,能夠更好地反映文檔的統(tǒng)計分布,提高分類性能。 針對標(biāo)準(zhǔn)KNN算法的不足,本文提出了基于核的距離加權(quán)KNN算法,能夠解決樣本的多峰分布、邊界重疊問題和分類器的精確分類決策問題。 互聯(lián)網(wǎng)和文本庫中有很多經(jīng)過粗分類的訓(xùn)練文本,但普遍存在樣本內(nèi)容重復(fù)和質(zhì)量過差的問題,這嚴(yán)重影響了文本分類器的性能。本文提出基于排序特征的快速冗余文檔檢測算法,去除樣本中冗余文檔。為了解決訓(xùn)練樣本質(zhì)量過差的問題,本文通過重要性分析方法進(jìn)行訓(xùn)練文本選擇。 在國家科學(xué)數(shù)字圖書館中,學(xué)科主題詞表中包含一些語義映射關(guān)系。本文使用互信息度量不同主題詞對不同類別的區(qū)分度,同時利用主題詞表中的語義映射關(guān)系,這種方法混合使用了...
【文章來源】:中國科學(xué)院大學(xué)(中國科學(xué)院計算技術(shù)研究所)北京市
【文章頁數(shù)】:58 頁
【學(xué)位級別】:碩士
【部分圖文】:
不同詞特征權(quán)重下的分類準(zhǔn)確率
【參考文獻(xiàn)】:
期刊論文
[1]近似鏡像網(wǎng)頁檢測算法的研究與評價[J]. 王建勇,謝正茂,雷鳴,李曉明. 電子學(xué)報. 2000(S1)
[2]關(guān)于統(tǒng)計學(xué)習(xí)理論與支持向量機(jī)[J]. 張學(xué)工. 自動化學(xué)報. 2000(01)
[3]中文文檔自動分類系統(tǒng)的設(shè)計與實(shí)現(xiàn)[J]. 鄒濤,王繼成,黃源,張福炎. 中文信息學(xué)報. 1999(03)
[4]基于向量空間模型的文檔分類系統(tǒng)[J]. 黃萱菁,吳立德. 模式識別與人工智能. 1998(02)
[5]漢語語料的自動分類[J]. 吳軍,王作英,禹鋒,王俠. 中文信息學(xué)報. 1995(04)
本文編號:2926216
【文章來源】:中國科學(xué)院大學(xué)(中國科學(xué)院計算技術(shù)研究所)北京市
【文章頁數(shù)】:58 頁
【學(xué)位級別】:碩士
【部分圖文】:
不同詞特征權(quán)重下的分類準(zhǔn)確率
【參考文獻(xiàn)】:
期刊論文
[1]近似鏡像網(wǎng)頁檢測算法的研究與評價[J]. 王建勇,謝正茂,雷鳴,李曉明. 電子學(xué)報. 2000(S1)
[2]關(guān)于統(tǒng)計學(xué)習(xí)理論與支持向量機(jī)[J]. 張學(xué)工. 自動化學(xué)報. 2000(01)
[3]中文文檔自動分類系統(tǒng)的設(shè)計與實(shí)現(xiàn)[J]. 鄒濤,王繼成,黃源,張福炎. 中文信息學(xué)報. 1999(03)
[4]基于向量空間模型的文檔分類系統(tǒng)[J]. 黃萱菁,吳立德. 模式識別與人工智能. 1998(02)
[5]漢語語料的自動分類[J]. 吳軍,王作英,禹鋒,王俠. 中文信息學(xué)報. 1995(04)
本文編號:2926216
本文鏈接:http://www.sikaile.net/tushudanganlunwen/2926216.html
最近更新
教材專著