天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于多示例多標簽支持向量機的網(wǎng)頁分類方法

發(fā)布時間:2018-05-15 23:33

  本文選題:多示例多標簽 + 網(wǎng)頁分類 ; 參考:《中國石油大學(華東)》2014年碩士論文


【摘要】:隨著互聯(lián)網(wǎng)的普及,網(wǎng)絡(luò)的信息量呈指數(shù)增長,給人們從互聯(lián)網(wǎng)上獲取有用信息帶來了巨大的挑戰(zhàn),由此網(wǎng)頁分類技術(shù)應(yīng)運而生,它可以幫助人們有效的組織和利用網(wǎng)絡(luò)上的海量信息。在眾多網(wǎng)頁自動分類算法中,多示例多標簽框架下的支持向量機因其出色的學習能力,已成為機器學習界的研究熱點。介紹了網(wǎng)頁分類的一般流程及關(guān)鍵技術(shù),分析了支持向量機的發(fā)展、基本原理以及常用訓練算法,闡述了目前幾種常用的多示例多標簽框架下的訓練算法,研究了最新的多示例多標簽框架下的支持向量機算法——E-MIMLSVM+算法。針對目前多示例多標簽支持向量機中的信息丟失問題,即標簽與示例間的聯(lián)系信息和標簽之間聯(lián)系信息,對多示例多標簽支持向量機算法進行改進,提出了基于集成分類器鏈的E-MIMLSVM+算法的改進方法,集成分類器鏈是一種能夠利用標簽間聯(lián)系信息的技術(shù),這種技術(shù)因采用了特征空間和示例空間上的隨機子集選取策略,具有較低的時間復雜度和空間復雜度,能夠極大地提高算法的分類速度和準確率。針對傳統(tǒng)監(jiān)督學習中存在的小樣本問題,提出了多示例多標簽框架下的直推式支持向量機分類算法,這是一種半監(jiān)督學習方法,在已標記樣本的數(shù)量有限的情況下,可以充分利用大量的未標記樣本來訓練分類模型,由于大量未標記樣本的參與使得訓練出的分類模型能夠更加準確地反映樣本數(shù)據(jù)的分布規(guī)律,在遇到新樣本時分類模型可以給出更適合的分類輸出,有效地提高了分類算法的泛化能力。最后,根據(jù)改進算法設(shè)計網(wǎng)頁分類系統(tǒng),并進行了分類實驗和實驗結(jié)果分析。實驗數(shù)據(jù)表明,改進算法能夠提高分類速度和準確率。
[Abstract]:With the popularity of the Internet, the amount of information on the network has increased exponentially, which has brought great challenges to people to obtain useful information from the Internet. As a result, the technology of web page classification has emerged as the times require. It can help people to effectively organize and use the vast amount of information on the network. Among many automatic web page classification algorithms, support vector machine (SVM) based on multi-example and multi-label framework has become a hot topic in the field of machine learning because of its excellent learning ability. This paper introduces the general flow and key technology of web page classification, analyzes the development, basic principle and common training algorithm of support vector machine, and expounds several common training algorithms under the framework of multi-example and multi-label. In this paper, the new support vector machine (SVM) algorithm based on multi-example and multi-label framework is studied. Aiming at the problem of information loss in multi-example multi-tag support vector machine, that is, the contact information between tag and example and the contact information between tags, the algorithm of multi-example multi-label support vector machine is improved. An improved method of E-MIMLSVM algorithm based on ensemble classifier chain is proposed. The integrated classifier chain is a technique that can utilize the information between tags. This technique adopts the strategy of random subset selection in feature space and sample space. With low time complexity and space complexity, the classification speed and accuracy of the algorithm can be greatly improved. In order to solve the problem of small sample in traditional supervised learning, this paper proposes a classification algorithm of direct push support vector machine (SVM) under the framework of multi-example and multi-label, which is a semi-supervised learning method, with a limited number of labeled samples. A large number of unlabeled samples can be fully used to train the classification model. Because of the participation of a large number of unlabeled samples, the trained classification model can more accurately reflect the distribution of sample data. When new samples are encountered, the classification model can give a more suitable classification output, which effectively improves the generalization ability of the classification algorithm. Finally, the web page classification system is designed according to the improved algorithm, and the classification experiments and experimental results are carried out. Experimental data show that the improved algorithm can improve the classification speed and accuracy.
【學位授予單位】:中國石油大學(華東)
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TP393.092

【相似文獻】

相關(guān)期刊論文 前10條

1 林茜卡;傅秀芬;滕少華;李云;;協(xié)同標簽系統(tǒng)的應(yīng)用研究[J];暨南大學學報(自然科學與醫(yī)學版);2009年01期

2 吳超;周波;;基于復雜網(wǎng)絡(luò)的社會化標簽分析[J];浙江大學學報(工學版);2010年11期

3 吳金成;曹嬌;趙文棟;張磊;;標簽集中式發(fā)布訂閱機制性能分析[J];指揮控制與仿真;2010年06期

4 李曉燕;陳剛;壽黎但;董金祥;;一種面向協(xié)作標簽系統(tǒng)的圖片檢索聚類方法[J];中國圖象圖形學報;2010年11期

5 袁柳;張龍波;;基于概率主題模型的標簽預測[J];計算機科學;2011年07期

6 張斌;張引;高克寧;郭朋偉;孫達明;;融合關(guān)系與內(nèi)容分析的社會標簽推薦[J];軟件學報;2012年03期

7 王永剛;嚴寒冰;許俊峰;胡建斌;陳鐘;;垃圾標簽的抵御方法研究[J];計算機研究與發(fā)展;2013年10期

8 汪祥;賈焰;周斌;陳儒華;韓毅;;基于交互關(guān)系的微博用戶標簽預測[J];計算機工程與科學;2013年10期

9 顧亦然;陳敏;;一種三部圖網(wǎng)絡(luò)中標簽時間加權(quán)的推薦方法[J];計算機科學;2012年08期

10 趙亞楠;董晶;董佳梁;;基于社會化標注的博客標簽推薦方法[J];計算機工程與設(shè)計;2012年12期

相關(guān)會議論文 前6條

1 朱廣飛;董超;王衡;汪國平;;照片標簽的智能化管理[A];第四屆和諧人機環(huán)境聯(lián)合學術(shù)會議論文集[C];2008年

2 房冠南;袁彩霞;王小捷;李江;宋占江;;面向?qū)υ捳Z料的標簽推薦[A];中國計算語言學研究前沿進展(2009-2011)[C];2011年

3 梅放;林鴻飛;;基于社會化標簽的移動音樂檢索[A];第五屆全國信息檢索學術(shù)會議論文集[C];2009年

4 李靜;林鴻飛;;基于用戶情感標簽的音樂檢索算法[A];第六屆全國信息檢索學術(shù)會議論文集[C];2010年

5 駱雄武;萬小軍;楊建武;吳於茜;;基于后綴樹的Web檢索結(jié)果聚類標簽生成方法[A];第四屆全國信息檢索與內(nèi)容安全學術(shù)會議論文集(上)[C];2008年

6 王波;唐常杰;段磊;尹佳;左R,

本文編號:1894454


資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/1894454.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶7207e***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com