搜索引擎中中文WEB文本自動分類研究.pdf 全文
本文關鍵詞:搜索引擎中中文WEB文本自動分類研究,由筆耕文化傳播整理發(fā)布。
暨南大學碩士學位論文搜索引擎中中文WEB文本自動分類研究
摘 要隨著網(wǎng)絡信息的迅猛發(fā)展,搜索引擎順應潮流而生,在網(wǎng)絡信息檢索中起到
舉足輕重的作用。在使用搜索引擎時,我們總希望能獲得更快的速度和更高的精
度。通過文本的自動分類,能有效的提高搜索引擎的執(zhí)行效率,因此本文中我們
重點研究中文文本自動分類的相關技術,從而促進信息化的發(fā)展。本文首先介紹了搜索引擎的工作原理和體系結構,然后逐一研究了和中文文
本分類相關的中文分詞、特征抽取和文本分類算法等幾大關鍵技術。通過分析研
究當前已有的中文分詞算法,結合中文自身特點,提出了一種基于2-Gram模型
HASH機制的中文分詞的改進算法。同時對當前流行的幾種常用的文本分類算法進
行了比較研究,結合前人的研究經(jīng)驗,提出一種基于VSM模型KNN算法的中文文本
自動分類系統(tǒng)方案。最后對中文文本分類的相關研究作總結和展望。
關鍵字:搜索引擎、 中文分詞、 特征抽取、 文本分類算法、 VSM-KNN
iii 暨南大學碩士學位論文搜索引擎中中文WEB文本自動分類研究
AbstractAlong with the fast development in network information, the search engine
complied with the tidal current lives, plays the pivotal role in the network
information retrieval. When use search engine, we always hoped that we can obtain a
quicker speed and a higher precision. Through automatic text classification, it can
improve the efficiency of search engines. Therefore this paper we focus on related
technologies about the Chinese automatic classification, thus promoting the
development of information technology This paper introduced a search engine, the principle and structure, and then
research several key technologies such as Chinese word segmentation, feature
extraction and classification algorithms. Through the analysis current bas
本文關鍵詞:搜索引擎中中文WEB文本自動分類研究,,由筆耕文化傳播整理發(fā)布。
本文編號:137518
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/137518.html