天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 信息工程論文 >

哈薩克語文本分類系統(tǒng)的設計與實現(xiàn)

發(fā)布時間:2016-08-25 22:20

  本文關鍵詞:哈薩克語文本分類系統(tǒng)的設計與實現(xiàn),,由筆耕文化傳播整理發(fā)布。


《電子科技大學》 2014年

哈薩克語文本分類系統(tǒng)的設計與實現(xiàn)

木回提  

【摘要】:近些年隨著計算機技術在新疆少數民族地區(qū)的廣泛應用,基于哈薩克文的電子文檔也逐漸增加,并且堆積起來。如何對這些越來越多的電子文檔數據進行有效的管理,并為廣大的用戶提供方便快捷的信息檢索成為了數據挖掘技術的一個重要內容。文本分類就是針對于這一問題的一門技術,并為此提出了一系列的解決方案。文本分類這一人工智能信息處理技術,主要應用于信息的過濾、信息的檢索、數據庫應用和數字圖書館建設等領域。文本分類就是將待分類的文本根據內容自動劃分到預先規(guī)定好的類別中。文本分類的步驟一般包括文本預處理、特征選擇、特征權值計算、分類和性能評估等。特征權重計算是文本分類中關鍵的一個環(huán)節(jié),關系到文本分類的最終結果和質量。傳統(tǒng)的特征權重計算算法IDFTF-是重點考慮該特征項在一篇文本中出現(xiàn)的次數,同時在其他文本中出現(xiàn)較少這樣的特性。在特征選擇的過程中實現(xiàn)了利用詞頻統(tǒng)計信息和語言信息相結合的方法,計算特征項詞匯的權重值時不僅考慮詞頻,還對特征項詞匯的集中度、分散度進行計算。利用上述信息對訓練集文本和測試集文本中的每一類文本形成特征項詞匯的權重向量,形成所有訓練集文本的多維向量空間,并利用K最近距離方法得到對測試集文本的分類結果。通過此方法有效提高了哈薩克文文本分類的準確率,取得了較好的效果。本文利用K最近距離方法,對哈薩克語文本信息進行分類研究(主要針對哈薩克文報紙中的文本),介紹了文本分類的相關技術及有關算法,利用軟件工程的基本思想設計并實現(xiàn)了一個用于哈薩克語文本的分類系統(tǒng)。本系統(tǒng)分為以下幾個部分:(1)哈薩克語文本預處理模塊,主要處理哈薩克文的分詞,詞干提取和停用詞過濾;(2)詞頻統(tǒng)計模塊,按照K最近距離方法的要求以及特征選取算法的特點從哈薩克語文本中統(tǒng)計文檔中特征詞的出現(xiàn)頻率;(3)特征選擇模塊;(4)權重計算模塊,實現(xiàn)TF和IDFTF-的計算;(5)分類器實現(xiàn)算法,實現(xiàn)K最近距離的哈薩克語文本分類算法;(6)分類器評價模塊,從查全率、查準率等方面進行評價。同時進行了一定的軟件測試方面的工作。

【關鍵詞】:
【學位授予單位】:電子科技大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TP311.52;TP391.1
【目錄】:

下載全文 更多同類文獻

CAJ全文下載

(如何獲取全文? 歡迎:購買知網充值卡、在線充值、在線咨詢)

CAJViewer閱讀器支持CAJ、PDF文件格式


【參考文獻】

中國期刊全文數據庫 前3條

1 吐爾根·依布拉音;袁保社;;新疆少數民族語言文字信息處理研究與應用[J];中文信息學報;2011年06期

2 艾海麥提江·阿布來提;吐爾地·托合提;艾斯卡爾·艾木都拉;;基于Naive Bayes的維吾爾文文本分類算法及其性能分析[J];計算機應用與軟件;2012年12期

3 耿世民;;哈薩克族的語言和文字[J];西北民族研究;2006年02期

【共引文獻】

中國期刊全文數據庫 前10條

1 李淑霞;馬英連;;新疆哈薩克文字地圖的編制[J];測繪標準化;2008年01期

2 穆妮熱·穆合塔爾;艾孜爾古麗;玉素甫·艾白都拉;;現(xiàn)代維吾爾語簡單句識別研究[J];計算機光盤軟件與應用;2014年13期

3 楊建萍;年梅;買日葉木·卡地爾;;維吾爾文初中生物教材中生物詞匯的統(tǒng)計分析[J];電腦知識與技術;2015年13期

4 王亞娟;;面向機器翻譯的漢維詞語對齊規(guī)范研究[J];電腦知識與技術;2015年20期

5 莫禮平;曾水玲;周愷卿;;音形結合的方塊苗文輸入編碼方案研究[J];計算機科學與探索;2014年08期

6 買買提依明·哈斯木;吾守爾·斯拉木;維尼拉·木沙江;努爾麥麥提·尤魯瓦斯;;基于統(tǒng)計專用字符的維、哈、柯文文種識別研究[J];中文信息學報;2015年02期

7 李波;王江晴;魏紅昀;孫陽光;王新年;徐凌;;一種女書手寫字符規(guī)范字形自動生成方法[J];中文信息學報;2015年02期

8 柯慶梅;;Characteristics Studies on Kazak Place Names in Ili Kazak Autonomous Prefecture[J];海外英語;2015年17期

9 鄒岳琳;吐爾根·依布拉音;麥熱哈巴·艾力;艾山·吾買爾;帕力旦·吐爾遜;;基于詞干提取的維吾爾語事件類時間短語識別[J];計算機工程與設計;2014年02期

10 阿米妮古麗·奧斯曼;加日拉·買買提熱依木;吐爾根·依布拉音;;維漢/漢維機器翻譯譯后編輯器的設計與實現(xiàn)[J];新疆大學學報(自然科學版);2013年04期

中國博士學位論文全文數據庫 前2條

1 朱澤德;網絡雙語語料挖掘關鍵技術研究[D];中國科學技術大學;2014年

2 麥熱哈巴·艾力;基于實例的維漢機器翻譯若干關鍵問題研究[D];新疆大學;2014年

中國碩士學位論文全文數據庫 前10條

1 黃小勇;獨立后吉爾吉斯斯坦語言政策及其特征研究[D];新疆師范大學;2011年

2 李萍;高考信息采集與考務管理系統(tǒng)多語言支持研究[D];新疆農業(yè)大學;2008年

3 仲崇峰;哈薩克語中的漢語借詞研究[D];中央民族大學;2009年

4 卡哈爾江·阿比的熱西提;基于實例的漢維—維漢雙向機器翻譯系統(tǒng)的研究[D];上海交通大學;2012年

5 祖麗皮亞·買買提明;維吾爾語基本動詞短語自動識別研究[D];北京郵電大學;2012年

6 吳小川;泛化的基于實例方法的漢語維吾爾語模板庫的構建[D];新疆大學;2012年

7 鄧俊;基于Android平臺的維吾爾文網頁瀏覽器的設計與實現(xiàn)[D];新疆大學;2013年

8 阿米妮古麗·奧斯曼;維漢/漢維機器翻譯譯后編輯器的設計與實現(xiàn)[D];新疆大學;2013年

9 申屠文勝;新疆南疆三地州農業(yè)信息服務模式研究[D];石河子大學;2013年

10 古麗孜亞·阿布都吉力;漢—哈薩克雙語電子詞典的設計與實現(xiàn)[D];廈門大學;2013年

【二級參考文獻】

中國期刊全文數據庫 前10條

1 張廣達;碎葉城今地考[J];北京大學學報(哲學社會科學版);1979年05期

2 塞麥提·麥麥提敏;塞麥提·麥麥提敏;塞麥提·麥麥提敏;;基于統(tǒng)計的維吾爾文信息熵的估計[J];電腦知識與技術;2009年04期

3 袁保社,王新平,吐爾根;24W系列維漢英電子打字機的研制[J];電子技術應用;1989年08期

4 王昆侖;基于CDCPM的維吾爾語非特定人語音識別[J];計算機研究與發(fā)展;2001年10期

5 達吾勒·阿布都哈依爾;古麗拉·阿東別克;;基于ANN的哈薩克文手寫文字識別系統(tǒng)的研究[J];計算機工程與應用;2008年01期

6 達吾勒·阿布都哈依爾;古麗拉·阿東別克;;哈薩克語詞法分析器的研究與實現(xiàn)[J];計算機工程與應用;2008年19期

7 劉艷;古麗拉.阿東別克;伊力亞爾;;哈薩克語詞性自動標注研究初探[J];計算機工程與應用;2008年20期

8 侯呈風;古麗拉·阿東別克;;改進的HMM應用于哈薩克語詞性標注[J];計算機工程與應用;2010年36期

9 繆成,袁保社,吾守爾·斯拉木,李莉;維、哈、柯、漢、英多文種處理平臺的設計與實現(xiàn)[J];計算機工程;2004年10期

10 吐爾地·托合提;維尼拉·木沙江;艾斯卡爾·艾木都拉;;維、哈、柯全文搜索引擎檢索器的關鍵技術[J];計算機工程;2008年21期

中國重要會議論文全文數據庫 前2條

1 玉素甫.艾白都拉;阿不都熱依木沙力;熱孜萬;;現(xiàn)代維語語料庫加工處理中的機器詞根詞典研究[A];第十屆全國少數民族語言文字信息處理學術研討會論文集[C];2005年

2 伊力亞爾.加爾木哈買提;古麗拉.阿東別克;;中國哈薩克阿拉伯文與哈薩克斯拉夫文文本轉換[A];第三屆學生計算語言學研討會論文集[C];2006年

中國碩士學位論文全文數據庫 前1條

1 畢麗克孜;現(xiàn)代維吾爾語語料庫詞頻統(tǒng)計實驗性研究[D];新疆大學;2003年

【相似文獻】

中國期刊全文數據庫 前10條

1 唐亮;段建國;許洪波;梁玲;;基于信息論的文本分類模型[J];計算機工程與設計;2008年24期

2 施化吉;王賢川;李星毅;;基于規(guī)則重構的關聯(lián)文本分類[J];計算機工程與設計;2009年03期

3 劉伍穎;王挺;;適于垃圾文本流過濾的條件概率集成方法[J];計算機科學與探索;2010年05期

4 張征杰;王自強;;文本分類及算法綜述[J];電腦知識與技術;2012年04期

5 彭其華;;關聯(lián)挖掘下的海量文本信息深入挖掘實現(xiàn)[J];微電子學與計算機;2013年10期

6 汪明霓;BASIC文本系統(tǒng)[J];計算機應用研究;1988年01期

7 王東興,冷惠文;大量編程用文本數據的統(tǒng)一處理[J];鞍山鋼鐵學院學報;1997年06期

8 周鵬;數據庫中不規(guī)范文本文件的數據轉換[J];電腦編程技巧與維護;2005年05期

9 谷峰;吳揚揚;;文本分類關鍵技術[J];福建電腦;2006年09期

10 宋東風;張志浩;;短文本數據的自動分類[J];電腦與信息技術;2007年01期

中國重要會議論文全文數據庫 前10條

1 許君;王朝坤;劉立超;王建民;劉璋;;云環(huán)境中的近似復制文本檢測[A];第29屆中國數據庫學術會議論文集(B輯)(NDBC2012)[C];2012年

2 易天元;葉春生;;工業(yè)鍋爐圖紙輸入的文本數據處理[A];1997中國控制與決策學術年會論文集[C];1997年

3 胡蓉;唐常杰;陳敏敏;欒江;;關聯(lián)規(guī)則制導的遺傳算法在文本分類中的應用[A];第十九屆全國數據庫學術會議論文集(研究報告篇)[C];2002年

4 李文波;孫樂;黃瑞紅;馮元勇;張大鯤;;基于Labeled-LDA模型的文本分類新算法[A];第三屆全國信息檢索與內容安全學術會議論文集[C];2007年

5 黃云平;孫樂;李文波;;基于上下文圖模型文本表示的文本分類研究[A];第四屆全國信息檢索與內容安全學術會議論文集(上)[C];2008年

6 蔣勇;陳曉靜;;一種多方向手寫文本行提取方法[A];第二十七屆中國控制會議論文集[C];2008年

7 李瑞;王朝坤;鄭偉;王建民;王偉平;;基于MapReduce框架的近似復制文本檢測[A];NDBC2010第27屆中國數據庫學術會議論文集(B輯)[C];2010年

8 胡俊;黃厚寬;;一種基于SVM的可視化文本分類的方法[A];第二十一屆中國數據庫學術會議論文集(技術報告篇)[C];2004年

9 勞錦明;韋崗;;文本壓縮技術研究的新進展[A];開創(chuàng)新世紀的通信技術——第七屆全國青年通信學術會議論文集[C];2001年

10 江荻;;藏語文本信息處理的歷程與進展[A];中文信息處理前沿進展——中國中文信息學會二十五周年學術會議論文集[C];2006年

中國重要報紙全文數據庫 前2條

1 戴洪玲;[N];中國電腦教育報;2004年

2 山東 黃家貞;[N];電腦報;2001年

中國知網廣告投放

哈薩克語文本分類系統(tǒng)的設計與實現(xiàn)

《中國學術期刊(光盤版)》電子雜志社有限公司
同方知網數字出版技術股份有限公司
地址:北京清華大學 84-48信箱 知識超市公司
京ICP證040441號
互聯(lián)網出版許可證 新出網證(京)字008號
出版物經營許可證 新出發(fā)京批字第直0595號

訂購熱線:400-819-9993 010-62982499
服務熱線:010-62985026 010-62791813
在線咨詢:
傳真:010-62780361
京公網安備11010802020475號



  本文關鍵詞:哈薩克語文本分類系統(tǒng)的設計與實現(xiàn),由筆耕文化傳播整理發(fā)布。



本文編號:103720

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/xinxigongchenglunwen/103720.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶384df***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com