基于SVM的web分類(lèi)方案設(shè)計(jì)與研究
本文選題:網(wǎng)頁(yè)分類(lèi) + 文本分類(lèi)。 參考:《北京郵電大學(xué)》2014年碩士論文
【摘要】:近年來(lái),web己經(jīng)迅速發(fā)展成為了全球數(shù)據(jù)量最大的公共信息源,如何從浩瀚的信息中方便快捷的定位和篩選用戶(hù)需要的信息,已經(jīng)成為迫切需要解決的難題,其核心問(wèn)題是web的自動(dòng)分類(lèi)。Web的文本分類(lèi)來(lái)源于web分類(lèi),是文本挖掘的主要組成部分。按主題對(duì)web進(jìn)行分類(lèi),建立分類(lèi)結(jié)果數(shù)據(jù)庫(kù),生成分類(lèi)信息資源,一方面可以為定制分類(lèi)信息目錄,實(shí)現(xiàn)網(wǎng)頁(yè)分級(jí)管理和用戶(hù)上網(wǎng)信息推薦,有效提高用戶(hù)的搜索效率,快速、準(zhǔn)確的定位到目標(biāo)網(wǎng)頁(yè);另一方面還可以根據(jù)不同用戶(hù)的類(lèi)別興趣特征,實(shí)現(xiàn)個(gè)性化定制,過(guò)濾不良網(wǎng)頁(yè)和無(wú)關(guān)網(wǎng)頁(yè),按照用戶(hù)的意愿實(shí)現(xiàn)web訪(fǎng)問(wèn)控制。目前主流技術(shù)都是web文本分類(lèi),主要通過(guò)設(shè)計(jì)合理的網(wǎng)頁(yè)表示方式和文本分類(lèi)算法實(shí)現(xiàn)web自動(dòng)分類(lèi)。 web文本自動(dòng)分類(lèi)的算法有很多,但是支持向量機(jī)(SVM)分類(lèi)算法是當(dāng)今最流行,分類(lèi)效果最好的算法之一。本論文設(shè)計(jì)了一套完整的基于SVM的web分類(lèi)方案,并基于該分類(lèi)方案設(shè)計(jì)與實(shí)現(xiàn)了一個(gè)自動(dòng)網(wǎng)頁(yè)分類(lèi)系統(tǒng),結(jié)合樣本數(shù)據(jù)進(jìn)行實(shí)驗(yàn),利用分類(lèi)結(jié)果對(duì)系統(tǒng)進(jìn)行測(cè)試評(píng)估,驗(yàn)證了該分類(lèi)方案的可行性,同時(shí)也得到了一個(gè)高效的自動(dòng)網(wǎng)頁(yè)分類(lèi)系統(tǒng)。 本論文主要目標(biāo)是提出一套完整的基于SVM的web分類(lèi)方案,并基于該方案設(shè)計(jì)實(shí)現(xiàn)一個(gè)自動(dòng)網(wǎng)頁(yè)分類(lèi)系統(tǒng),該系統(tǒng)是基于B/S架構(gòu),利用LAMP (linux+apache+mysql+php) web平臺(tái)開(kāi)發(fā),選擇SVM分類(lèi)器分類(lèi)的一個(gè)自動(dòng)分類(lèi)系統(tǒng)。 本論文主要完成了以下幾個(gè)方面的工作: 首先,對(duì)網(wǎng)頁(yè)分類(lèi)技術(shù)的課題背景、課題任務(wù)、論文結(jié)構(gòu)進(jìn)行了分析和總結(jié)。 其次,系統(tǒng)地分析和研究了網(wǎng)頁(yè)自動(dòng)分類(lèi)過(guò)程中的關(guān)鍵技術(shù)和相關(guān)理論,包括數(shù)據(jù)獲取、數(shù)據(jù)預(yù)處理、SVM分類(lèi)器等。其中數(shù)據(jù)預(yù)處理又包括網(wǎng)頁(yè)去噪、文本分詞、特征選擇、特征量化等文本分類(lèi)的預(yù)處理技術(shù),分類(lèi)算法主要分析和研究了KNN和SVM,通過(guò)比較KNN和SVM的性能,最終選擇SVM算法作為本系統(tǒng)的分類(lèi)算法。 再次,詳細(xì)介紹基于SVM算法的網(wǎng)頁(yè)分類(lèi)方案的設(shè)計(jì)與研究,包括架構(gòu)設(shè)計(jì)和詳細(xì)設(shè)計(jì)。架構(gòu)設(shè)計(jì)是以web分類(lèi)流程為基礎(chǔ)進(jìn)行的設(shè)計(jì),包括需求分析、實(shí)現(xiàn)目標(biāo)、開(kāi)發(fā)環(huán)境和總體設(shè)計(jì);詳細(xì)設(shè)計(jì)是基于模塊劃分的思想,將系統(tǒng)劃分為數(shù)據(jù)庫(kù)模塊、用戶(hù)交互模塊和分類(lèi)模塊,各個(gè)模塊再進(jìn)行詳細(xì)具體的設(shè)計(jì)。 然后,給出了一個(gè)基于SVM的web文本分類(lèi)系統(tǒng)的實(shí)驗(yàn)并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析,提出系統(tǒng)性能的優(yōu)化。 接著,提出了本文的創(chuàng)新點(diǎn)。在文本預(yù)處理階段,為了提高色情、暴力、賭博、毒品等優(yōu)先級(jí)比較高的類(lèi)別的準(zhǔn)確性,本文在分詞之前對(duì)文本進(jìn)行了預(yù)處理。首先抽取類(lèi)別是色情、暴力、毒品等類(lèi)熟語(yǔ)料,即知道相應(yīng)類(lèi)別的URL,經(jīng)過(guò)頁(yè)面解析,抽取標(biāo)題內(nèi)容,進(jìn)行分詞,計(jì)算詞頻,按降序排列,選擇靠前出現(xiàn)的關(guān)鍵詞組成一個(gè)預(yù)置關(guān)鍵詞表。然后再對(duì)訓(xùn)練樣本和預(yù)測(cè)樣本進(jìn)行頁(yè)面解析,提取標(biāo)題關(guān)鍵字,和事先設(shè)置好的關(guān)鍵詞表進(jìn)行對(duì)比匹配,匹配成功就給出相應(yīng)分類(lèi)號(hào),匹配不成功就繼續(xù)進(jìn)行頁(yè)面內(nèi)容分詞,提取特征,svm分類(lèi),最后得出分類(lèi)結(jié)果。 最后,對(duì)作者在碩士研究生期間的主要成果和本文的主要工作進(jìn)行總結(jié)和展望。
[Abstract]:In recent years , web has been rapidly developed into the world ' s largest public information source , how to locate and screen the information needed by users conveniently and quickly from the vast information has become an urgent problem , and its core problem is the automatic classification of web .
on the other hand , the personalized customization can be realized according to the category interest characteristics of different users , the web access control can be realized according to the wishes of the user , and the present mainstream technology is the web text classification , and the web automatic classification is realized mainly by designing a reasonable webpage representation mode and a text classification algorithm .
There are many algorithms for the automatic classification of web text , but support vector machine ( SVM ) classification algorithm is one of the most popular and best classification algorithms . This paper designs a complete SVM - based web classification scheme , and designs and implements an automatic web page classification system based on the classification scheme . Based on the classification scheme , the feasibility of the classification scheme is verified , and a highly efficient automatic web page classification system is also obtained .
The main goal of this paper is to propose a complete SVM - based web classification scheme , which is based on the B / S architecture , which is developed by using the LAMP ( linux + apache + mysql + php ) web platform and selects an automatic classification system for SVM classifier classification .
The thesis mainly finished the following aspects :
Firstly , the thesis analyses and summarizes the subject background , task and paper structure of web page classification technology .
Secondly , the key technologies and relevant theories in the automatic classification of web pages are systematically analyzed and studied , including data acquisition , data preprocessing , SVM classifier , etc . The data preprocessing includes preprocessing technology of text classification such as webpage denoising , text segmentation , feature selection , feature quantization , etc . The classification algorithm mainly analyzes and studies KNN and SVM , and finally selects SVM algorithm as the classification algorithm of the system by comparing the performance of KNN and SVM .
Thirdly , the design and research of web page classification scheme based on SVM algorithm are introduced in detail , including architecture design and detailed design . The architecture design is based on the web classification process , including demand analysis , achievement goal , development environment and overall design .
The detailed design is based on the idea of module partition , divides the system into database module , user interaction module and classification module , and each module carries out detailed design .
Then , a web text classification system based on SVM is given and the experimental results are analyzed , and the optimization of the system performance is proposed .
In order to improve the accuracy of the categories of pornography , violence , gambling , drugs and so on , the text is preprocessed in the pre - processing stage of the text . First , the text is preprocessed in order to improve the priority of pornography , violence , gambling and drugs .
Finally , the author summarizes and prospects the author ' s main achievements during the master ' s graduate student ' s graduate student and the main work of this paper .
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類(lèi)號(hào)】:TP393.092
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 孟時(shí);王彥;;larbin網(wǎng)絡(luò)爬蟲(chóng)的體系結(jié)構(gòu)[J];電腦學(xué)習(xí);2010年04期
2 劉紅芝;;中文分詞技術(shù)的研究[J];電腦開(kāi)發(fā)與應(yīng)用;2010年03期
3 陳益軍;;一種基于元數(shù)據(jù)方法的KNN網(wǎng)頁(yè)分類(lèi)器的設(shè)計(jì)與實(shí)現(xiàn)[J];福建電腦;2007年06期
4 胡佳妮,徐蔚然,郭軍,鄧偉洪;中文文本分類(lèi)中的特征選擇算法研究[J];光通信研究;2005年03期
5 黃發(fā)良,鐘智;用于分類(lèi)的支持向量機(jī)[J];廣西師范學(xué)院學(xué)報(bào)(自然科學(xué)版);2004年03期
6 臺(tái)德藝;謝飛;胡學(xué)鋼;;文本分類(lèi)技術(shù)研究[J];合肥學(xué)院學(xué)報(bào)(自然科學(xué)版);2007年03期
7 毛先領(lǐng);何靖;閆宏飛;;網(wǎng)頁(yè)去噪:研究綜述[J];計(jì)算機(jī)研究與發(fā)展;2010年12期
8 王利;劉宗田;王燕華;廖濤;;基于內(nèi)容相似度的網(wǎng)頁(yè)正文提取[J];計(jì)算機(jī)工程;2010年06期
9 胡濤;路紅英;;基于Nutch的搜索引擎的研究[J];計(jì)算機(jī)時(shí)代;2007年01期
10 匡春臨;夏清強(qiáng);;基于SVM-KNN的文本分類(lèi)算法及其分析[J];計(jì)算機(jī)時(shí)代;2010年08期
,本文編號(hào):2025406
本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/2025406.html