面向內(nèi)容的網(wǎng)頁分類方法研究與實現(xiàn)
本文選題:網(wǎng)頁分類 + 特征選擇; 參考:《南京郵電大學》2017年碩士論文
【摘要】:在當今信息化時代中,互聯(lián)網(wǎng)逐步滲透到社會生活的各個方面,從而使得瀏覽網(wǎng)頁成為人們獲取信息的主要方式。然而,隨著互聯(lián)網(wǎng)的飛速發(fā)展,互聯(lián)網(wǎng)中的網(wǎng)頁數(shù)量急速增長。面對海量且復雜的網(wǎng)頁,人們通常無法迅速地獲得自己所需的內(nèi)容而導致其用戶體驗較差;诖,本文主要研究如何對網(wǎng)頁按照不同主題進行分類,分類過程包括兩個步驟:網(wǎng)頁數(shù)據(jù)預(yù)處理與文本分類。在獲取到網(wǎng)頁數(shù)據(jù)之后,首先需要對其進行預(yù)處理,網(wǎng)頁數(shù)據(jù)預(yù)處理的過程大致包括網(wǎng)頁去噪、中文分詞、特征選擇以及文本表示;其次,將得到的數(shù)值型數(shù)據(jù)輸入分類模型中進行文本分類。本文主要針對特征選擇以及文本分類進行改進。首先根據(jù)網(wǎng)頁的內(nèi)容與結(jié)構(gòu)特性,結(jié)合并改進布隆過濾器和TF-IDF算法,提出一種基于降維的特征選擇算法,以便剔除冗余的特征項;其次,本文對能有效地處理較大規(guī)模數(shù)據(jù)的支持向量機算法進行改進,通過分析核函數(shù)的原理和性質(zhì),構(gòu)建了一種全新的混合核函數(shù),并利用遺傳算法的交叉驗證搜索方式來對新核函數(shù)尋求最佳參數(shù),由此提出了一個兼具學習能力與泛化能力的支持向量機,接著通過仿真實驗對比驗證其在文本分類中的優(yōu)越性能。最后實現(xiàn)了一個基于該改進算法的網(wǎng)頁分類系統(tǒng),將系統(tǒng)用于對網(wǎng)頁內(nèi)容的分類,實驗結(jié)果表明,本文提出的算法在大部分情況下能取得較好的分類效果,該算法在網(wǎng)頁分類領(lǐng)域的應(yīng)用中有一定的實用價值。
[Abstract]:In today's information age, the Internet has gradually penetrated into all aspects of social life, thus making browsing the web page the main way for people to obtain information. However, with the rapid development of the Internet, the number of web pages in the Internet is growing rapidly. In the face of massive and complex web pages, people usually can not get the content they need quickly, resulting in poor user experience. Based on this, this paper mainly studies how to classify web pages according to different topics. The classification process includes two steps: page data preprocessing and text classification. After getting the web page data, we need to preprocess it first. The process of page data preprocessing includes web page denoising, Chinese word segmentation, feature selection and text representation. The obtained numerical data is input into the classification model for text classification. This paper mainly focuses on feature selection and text classification. First of all, according to the content and structure of the web page, combining and improving the Bron filter and TF-IDF algorithm, a feature selection algorithm based on dimensionality reduction is proposed in order to eliminate redundant feature items. In this paper, the support vector machine (SVM) algorithm, which can deal with large scale data effectively, is improved. By analyzing the principle and properties of kernel function, a new hybrid kernel function is constructed. A support vector machine with both learning ability and generalization ability is proposed to search for the best parameters of the new kernel function by using the cross-validation search method of genetic algorithm. Then the superior performance in text classification is verified by simulation experiments. Finally, a web page classification system based on the improved algorithm is implemented. The experimental results show that the proposed algorithm can achieve a good classification effect in most cases. The algorithm has some practical value in the field of web page classification.
【學位授予單位】:南京郵電大學
【學位級別】:碩士
【學位授予年份】:2017
【分類號】:TP393.092;TP391.1
【參考文獻】
相關(guān)期刊論文 前10條
1 沙泓州;劉慶云;柳廳文;周舟;郭莉;方濱興;;惡意網(wǎng)頁識別研究綜述[J];計算機學報;2016年03期
2 韓冬煦;常寶寶;;中文分詞模型的領(lǐng)域適應(yīng)性方法[J];計算機學報;2015年02期
3 羅元;;網(wǎng)頁凈化及去重研究綜述[J];現(xiàn)代計算機;2013年15期
4 劉鯖潔;陳桂明;劉小方;楊慶;;基于遺傳算法的SVM參數(shù)組合優(yōu)化[J];計算機應(yīng)用與軟件;2012年04期
5 劉威;郭淵博;黃鵬;;基于多維布隆過濾器的模式匹配引擎[J];計算機應(yīng)用;2011年01期
6 臺德藝;王俊;;文本分類特征權(quán)重改進算法[J];計算機工程;2010年09期
7 連可;黃建國;王厚軍;龍兵;;一種基于遺傳算法的SVM決策樹多分類策略研究[J];電子學報;2008年08期
8 崔自峰;徐寶文;張衛(wèi)豐;徐峻嶺;;一種近似Markov Blanket最優(yōu)特征選擇算法[J];計算機學報;2007年12期
9 段軍峰;黃維通;陸玉昌;;中文網(wǎng)頁分類研究與系統(tǒng)實現(xiàn)[J];計算機科學;2007年06期
10 趙華;趙鐵軍;張姝;王浩暢;;基于內(nèi)容分析的話題檢測研究[J];哈爾濱工業(yè)大學學報;2006年10期
相關(guān)碩士學位論文 前5條
1 王立達;基于混合核函數(shù)的SVM及其應(yīng)用研究[D];大連海事大學;2016年
2 王征;基于布隆過濾器算法的網(wǎng)頁消重技術(shù)的實現(xiàn)與應(yīng)用[D];北京交通大學;2010年
3 蘇秀芝;網(wǎng)頁去噪與特征提取算法的研究及實現(xiàn)[D];西南交通大學;2010年
4 張小歡;中文分詞系統(tǒng)的設(shè)計和實現(xiàn)[D];電子科技大學;2010年
5 曹衛(wèi)峰;中文分詞關(guān)鍵技術(shù)研究[D];南京理工大學;2009年
,本文編號:1945531
本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/1945531.html