天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 法律論文 > 治安法論文 >

SVM文本分類器在公安信息系統(tǒng)中的應(yīng)用研究

發(fā)布時(shí)間:2017-06-28 02:00

  本文關(guān)鍵詞:SVM文本分類器在公安信息系統(tǒng)中的應(yīng)用研究,由筆耕文化傳播整理發(fā)布。


【摘要】:近些年來(lái),我國(guó)互聯(lián)網(wǎng)技術(shù)飛速發(fā)展,計(jì)算機(jī)使用日益普及,人們從網(wǎng)絡(luò)上獲取知識(shí)和信息更加便捷。但海量數(shù)據(jù)的出現(xiàn)在給大眾帶來(lái)方便的同時(shí),也給公安系統(tǒng)的警務(wù)人員們帶來(lái)了繁重的工作量。眾所周知,在以多、快、雜為特點(diǎn)的網(wǎng)絡(luò)信息中,合法與不合法信息、正面與負(fù)面信息互相充斥,這也就意味著為了避免消極信息的進(jìn)一步擴(kuò)散,網(wǎng)絡(luò)警察們必須及時(shí)、有效的處理那些非法的網(wǎng)絡(luò)信息。而傳統(tǒng)的人工處理方法卻存在著人力不足、處理不到位等諸多問(wèn)題。為了解決面對(duì)海量網(wǎng)絡(luò)信息,公安系統(tǒng)所呈現(xiàn)的警力資源匱乏、工作量繁重以及工作效率不高等諸多問(wèn)題,本文在深入研究支持向量機(jī)(SVM)理論以及網(wǎng)絡(luò)文本分類技術(shù)的基礎(chǔ)上,設(shè)計(jì)并實(shí)現(xiàn)了基于SVM的網(wǎng)絡(luò)文本信息分類器在公安信息系統(tǒng)的應(yīng)用研究這一具有挑戰(zhàn)性的課題。實(shí)驗(yàn)結(jié)果表明該分類器取得了令人滿意的分類結(jié)果。本課題的主要研究?jī)?nèi)容及取得的主要成果如下:(1)本課題在文本分詞階段,使用隱馬爾科夫模型(HMM)實(shí)現(xiàn)分詞程序。與中科院的漢語(yǔ)分詞系統(tǒng)ICTCLAS相比,隱馬爾科夫模型可以將公安信息系統(tǒng)現(xiàn)有的敏感詞庫(kù)中的敏感名詞和前面動(dòng)詞分到一起,例如敏感詞庫(kù)中包含“東突”一詞,隱馬爾科夫模型可以將動(dòng)詞“打擊”和“東突”分到一起。這種分詞方法有效的降低了中文分詞過(guò)程中信息量的丟失程度,從而提高了分詞的效率和準(zhǔn)確率。(2)在特征選擇過(guò)程中,本課題通過(guò)對(duì)比多種特征選擇算法,最終選擇了使用開方檢驗(yàn)來(lái)實(shí)現(xiàn)特征選擇。開方檢驗(yàn)使用差值衡量公式來(lái)確定理論值和觀察值的偏差程度,在很大程度上減少了由于偶然產(chǎn)生或者測(cè)量不精確產(chǎn)生的誤差,從而進(jìn)一步提高分類器的分類準(zhǔn)確率。(3)在特征權(quán)重計(jì)算過(guò)程中,選用經(jīng)典的文本特征權(quán)重計(jì)算公式(TF-IDF)并根據(jù)公安信息系統(tǒng)對(duì)網(wǎng)絡(luò)信息處理的特殊性要求,引入交集系數(shù)即首先將待分類的文本與公安信息系統(tǒng)現(xiàn)有的敏感詞庫(kù)取交集,一旦交集非空,便給集合中的敏感詞賦予最高特征權(quán)重,從而加重了敏感特征詞在文本分類中的貢獻(xiàn)程度。
【關(guān)鍵詞】:支持向量機(jī) 公安 文本分類 隱馬爾科夫模型 開方檢驗(yàn) TF-IDF
【學(xué)位授予單位】:石家莊鐵道大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.1;D631
【目錄】:
  • 摘要3-4
  • Abstract4-7
  • 第一章 緒論7-12
  • 1.1 課題研究背景和意義7-8
  • 1.2 國(guó)內(nèi)外研究現(xiàn)狀8-10
  • 1.2.1 文本分類技術(shù)的研究現(xiàn)狀9
  • 1.2.2 支持向量機(jī)的研究現(xiàn)狀9-10
  • 1.3 主要研究?jī)?nèi)容10-11
  • 1.4 論文組織結(jié)構(gòu)11-12
  • 第二章 關(guān)鍵技術(shù)與理論基礎(chǔ)12-21
  • 2.1 文本分類技術(shù)12-14
  • 2.2 支持向量機(jī)理論14-17
  • 2.3 隱馬爾科夫模型17-18
  • 2.4 開方檢驗(yàn)算法18-19
  • 2.5 改進(jìn)的TF-IDF算法19-21
  • 第三章 公安信息系統(tǒng)對(duì)網(wǎng)絡(luò)文本分類器的需求分析及其架構(gòu)設(shè)計(jì)21-26
  • 3.1 公安信息系統(tǒng)概述21-22
  • 3.2 公安信息系統(tǒng)對(duì)分類器的需求分析22-24
  • 3.3 文本分類器的架構(gòu)設(shè)計(jì)24-26
  • 第四章 SVM網(wǎng)絡(luò)文本分類器的模塊設(shè)計(jì)與實(shí)現(xiàn)26-41
  • 4.1 網(wǎng)頁(yè)信息文本預(yù)處理26-36
  • 4.1.1 網(wǎng)頁(yè)信息文本去噪26-30
  • 4.1.2 文本分詞30-33
  • 4.1.3 去除停用詞33-36
  • 4.2 網(wǎng)頁(yè)文本特征處理模塊36-37
  • 4.3 網(wǎng)頁(yè)文本向量表示模塊37-39
  • 4.4 SVM分類器構(gòu)造模塊39-41
  • 第五章 SVM網(wǎng)絡(luò)文本分類器測(cè)試與應(yīng)用41-48
  • 5.1 SVM網(wǎng)絡(luò)文本分類器在公安信息系統(tǒng)的應(yīng)用與分析41-44
  • 5.2 SVM網(wǎng)絡(luò)文本分類器的性能評(píng)價(jià)44-48
  • 5.2.1 訓(xùn)練與測(cè)試文本44-45
  • 5.2.2 性能評(píng)估標(biāo)準(zhǔn)45-46
  • 5.2.3 測(cè)試結(jié)果與性能分析46-48
  • 第六章 結(jié)論和展望48-50
  • 6.1 結(jié)論48
  • 6.2 展望48-50
  • 參考文獻(xiàn)50-53
  • 致謝53-54
  • 個(gè)人簡(jiǎn)歷、在學(xué)期間的研究成果及發(fā)表的學(xué)術(shù)論文54

【相似文獻(xiàn)】

中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前2條

1 張陽(yáng);李戰(zhàn)懷;盧維揚(yáng);;通過(guò)弱化樸素貝葉斯假設(shè)提高樸素貝葉斯文本分類器的性能[A];第十九屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2002年

2 周永健;鄭玉明;廖湖聲;;基于模糊聚類的文本分類器[A];2006年全國(guó)開放式分布與并行計(jì)算機(jī)學(xué)術(shù)會(huì)議論文集(三)[C];2006年

中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條

1 郝立麗;漢語(yǔ)文本數(shù)據(jù)挖掘[D];吉林大學(xué);2009年

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 李l喉,

本文編號(hào):492023


資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/falvlunwen/fanzuizhian/492023.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶8136a***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com