哈薩克語文本分類系統(tǒng)的設計和實現(xiàn).pdf 全文免費在線閱讀
本文關鍵詞:哈薩克語文本分類系統(tǒng)的設計與實現(xiàn),由筆耕文化傳播整理發(fā)布。
網(wǎng)友pk5235近日為您收集整理了關于哈薩克語文本分類系統(tǒng)的設計和實現(xiàn)的文檔,,希望對您的工作和學習有所幫助。以下是文檔介紹:論文題目哈薩克語文本分類系統(tǒng)的設計與實現(xiàn)專業(yè)學位類別工程碩士學號 201192232224作者姓名木回提指導教師王佳昊副教授分類號密級UDC注 1學位論文哈薩克語文本分類系統(tǒng)的設計與實現(xiàn)(題名和副題名)木回提(作者姓名)指導教師王佳昊副教授電子科技大學成都張杰高工新疆金牛生物有限公司烏魯木齊(姓名、職稱、單位名稱)申請學位級別碩士專業(yè)學位類別工程碩士工程領域名稱軟件工程提交論文日期 2014.3.25 論文答辯日期 2014.5.9學位授予單位和日期電子科技大學 2014 年 6 月 25 日答辯委員會主席評閱人注 1:注明《國際十進分類法 UDC》的類號。DESIGN AND IMPLEMENTATION OF KAZAKTEXT CATEGORIZATION SYSTEMA Master Thesis Submitted toUniversity of Electronic Science and Technology of ChinaMajor: Master of EngineeringAuthor: Mu HuitiAdvisor: Wang JiahaoSchool : S(來源:[])chool of Information and Software Engineering獨創(chuàng)性聲明本人聲明所呈交的學位論文是本人在導師指導下進行的研究工作及取得的研究成果。據(jù)我所知,除了文中特別加以標注和致謝的地方外,論文中不包含其他人已經發(fā)表或撰寫過的研究成果,也不包含為獲得電子科技大學或其它教育機構的學位或證書而使用過的材料。與我一同工作的同志對本研究所做的任何貢獻均已在論文中作了明確的說明并表示謝意。作者簽名: 日期: 年月日論文使用授權本學位論文作者完全了解電子科技大學有關保留、使用學位論文的規(guī)定,有權保留并向國家有關部門或機構送交論文的復印件和磁盤,允許論文被查閱和借閱。本人授權電子科技大學可以將學位論文的全部或部分內容編入有關數(shù)據(jù)庫進行檢索,可以采用影印、縮印或掃描等復制手段保存、匯編學位論文。(保密的學位論文在解密后應遵守此規(guī)定)作者簽名: 導師簽名:日期: 年月日摘要I摘要近些年隨著計算機技術在新疆少數(shù)民族地區(qū)的廣泛應用,基于哈薩克文的電子文檔也逐漸增加,并且堆積起來。如何(來源:[])對這些越來越多的電子文檔數(shù)據(jù)進行有效的管理,并為廣大的用戶提供方便快捷的信息檢索成為了數(shù)據(jù)挖掘技術的一個重要內容。文本分類就是針對于這一問題的一門技術,并為此提出了一系列的解決方案。文本分類這一人工智能信息處理技術,主要應用于信息的過濾、信息的檢索、數(shù)據(jù)庫應用和數(shù)字圖書館建設等領域。文本分類就是將待分類的文本根據(jù)內容自動劃分到預先規(guī)定好的類別中。文本分類的步驟一般包括文本預處理、特征選擇、特征權值計算、分類和性能評估等。特征權重計算是文本分類中關鍵的一個環(huán)節(jié),關系到文本分類的最終結果和質量。傳統(tǒng)的特征權重計算算法 IDFTF - 是重點考慮該特征項在一篇文本中出現(xiàn)的次數(shù),同時在其他文本中出現(xiàn)較少這樣的特性。在特征選擇的過程中實現(xiàn)了利用詞頻統(tǒng)計信息和語言信息相結合的方法,計算特征項詞匯的權重值時不僅考慮詞頻,還對特征項詞匯的集中度、分散度進行計算。利用上述信息對訓練集文本和測試集文本中的每一類文本形成特征項詞匯的權重向量,形成所有訓練集文本的多維向量空間,并利用 K 最近距離方法得到對測試集文(來源:[])本的分類結果。通過此方法有效提高了哈薩克文文本分類的準確率,取得了較好的效果。本文利用 K 最近距離方法,對哈薩克語文本信息進行分類研究(主要針對哈薩克文報紙中的文本),介紹了文本分類的相關技術及有關算法,利用軟件工程的基本思想設計并實現(xiàn)了一個用于哈薩克語文本的分類系統(tǒng)。本系統(tǒng)分為以下幾個部分:(1)哈薩克語文本預處理模塊,主要處理哈薩克文的分詞,詞干提取和停用詞過濾;(2)詞頻統(tǒng)計模塊,按照 K 最近距離方法的要求以及特征選取算法的特點從哈薩克語文本中統(tǒng)計文檔中特征詞的出現(xiàn)頻率;(3)特征選擇模塊;(4)權重計算模塊,實現(xiàn)TF 和 IDFTF - 的計算;(5)分類器實現(xiàn)算法,實現(xiàn) K 最近距離的哈薩克語文本分類算法;(6)分類器評價模塊,從查全率、查準率等方面進行評價。同時進行了一定的軟件測試方面的工作。關鍵詞:哈薩克語文本,文本分類,K 最近距離算法,特征選擇,權重計算ABSTRACTIIABSTRACTWith the extensive application puter tech(來源:[])nology in recent years in theminority areas of Xinjiang, Kazakh-based electronic document is also increasing, andpile up. How many of these more effective electronic document data management, andfor the majority of users to provide convenient and efficient information retrieval e an important data mining technology content. Text classification is for atechnology to this problem, and has proposed a series of solutions. The artificialintelligence of (來源:[])text classification information processing technology , mainly used infiltering information in the field of information retrieval , database applications anddigital library construction.Text classification is to divide a large text document into one or a group ofcategories, making the content of each category represents a different theme.At present, the text classification mainly us
12>
播放器加載中,請稍候...
系統(tǒng)無法檢測到您的Adobe Flash Player版本
建議您在線安裝最新版本的Flash Player 在線安裝
本文關鍵詞:哈薩克語文本分類系統(tǒng)的設計與實現(xiàn),由筆耕文化傳播整理發(fā)布。
本文編號:163022
本文鏈接:http://www.sikaile.net/kejilunwen/xinxigongchenglunwen/163022.html