天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于半監(jiān)督的網(wǎng)頁分類

發(fā)布時間:2021-07-10 01:45
  網(wǎng)絡文本信息飛速增長,對海量網(wǎng)絡文本進行自動分類并從中找出我們所需要的信息是一項非常迫切的需求,然而,傳統(tǒng)的全監(jiān)督學習分類器要想有好的分類效果,首先需要人工標注數(shù)據(jù),訓練好模型之后,才可以分類。在海量數(shù)據(jù)面前,標注成本極高,用戶標注不一致,而數(shù)據(jù)采集和存儲技術卻一直在飛速發(fā)展,這給本文的設想提供了技術基礎。真實網(wǎng)絡文本中通常存在大量未標記的數(shù)據(jù),僅有少量現(xiàn)成的已標記數(shù)據(jù),如果我們假設大量未標記數(shù)據(jù)與少量已標記數(shù)據(jù)是服從相同分布的,二者結合之后構建一個質量與數(shù)量都滿足需求的訓練數(shù)據(jù)集,那么最終訓練出的分類器的分類效果將會和大量標記數(shù)據(jù)訓練好的全監(jiān)督分類器相當。本文嘗試了主流的基于半監(jiān)督學習的分類器,分類數(shù)據(jù)直接使用了最真實的網(wǎng)絡數(shù)據(jù),除了正文提取,簡單的語言篩選,廣告、垃圾文本過濾,最大限度地保留了原始的網(wǎng)絡內(nèi)容。為了提高分類效果,在嘗試了幾種主要的特征選擇和特征抽取方法的基礎上,還引入了半監(jiān)督的宏特征。在分類器的選擇方面,本文嘗試了三類基于不同原理的分類器:傳統(tǒng)的EM,基于直推學習的TSVM和基于深度架構的DBN。在特征方面,本文在傳統(tǒng)特征方法上做了實驗,為了提高TSVM的精度,本文首... 

【文章來源】:哈爾濱工業(yè)大學黑龍江省 211工程院校 985工程院校

【文章頁數(shù)】:63 頁

【學位級別】:碩士

【文章目錄】:
摘要
ABSTRACT
第1章 緒論
    1.1 課題背景
    1.2 課題目的及意義
    1.3 國內(nèi)外相關技術發(fā)展現(xiàn)狀
        1.3.1 文本分類技術的發(fā)展
        1.3.2 半監(jiān)督學習的發(fā)展
        1.3.3 半監(jiān)督文本分類的不足
    1.4 本文的主要研究內(nèi)容和組織結構
第2章 半監(jiān)督文本分類關鍵技術
    2.1 半監(jiān)督學習的 PAC 模型
    2.2 文本標引和特征降維
        2.2.1 文本的特征選擇方法
        2.2.2 文本的特征抽取方法
    2.3 評估
    2.4 本章小結
第3章 半監(jiān)督分類器與特征選擇
    3.1 基于 EM 的半監(jiān)督分類器算法實現(xiàn)
    3.2 基于 TSV M 的半監(jiān)督分類器實現(xiàn)
    3.3 基于 D B N 的半監(jiān)督分類器實現(xiàn)
    3.4 基于宏特征的文本特征抽取
    3.5 正文提取
    3.6 語言過濾
    3.7 網(wǎng)頁篩選
    3.8 本章小結
第4章 系統(tǒng)的設計與實現(xiàn)
    4.1 半監(jiān)督文本分類實驗平臺
    4.2 網(wǎng)頁處理系統(tǒng)
    4.3 半監(jiān)督分類器與特征模塊
    4.4 本章小結
第5章 實驗評測與結果分析
    5.1 實驗目的
    5.2 評測方法
    5.3 半監(jiān)督分類器在向量數(shù)據(jù)集上的橫向比較
        5.3.1 實驗數(shù)據(jù)集
        5.3.2 實驗結果及分析
    5.4 特征選擇方法對半監(jiān)督文本分類的影響
        5.4.1 實驗數(shù)據(jù)集
        5.4.2 EM實驗結果
        5.4.3 EM實驗分析
        5.4.4 TSVM實驗結果
        5.4.5 TSVM 實驗分析
        5.4.6 DBN 實驗結果
        5.4.7 DBN 實驗分析
        5.4.8 宏特征對半監(jiān)督分類性能的影響
        5.4.9 半監(jiān)督算法在小數(shù)據(jù)集上的分類特點
    5.5 半監(jiān)督文本分類應用到大規(guī)模網(wǎng)頁分類的效果
        5.5.1 實驗數(shù)據(jù)集
        5.5.2 實驗內(nèi)容
        5.5.3 實驗結果及分析
        5.5.4 半監(jiān)督分類在大規(guī)模網(wǎng)頁數(shù)據(jù)集上的缺陷
    5.6 本章小結
結論
參考文獻
致謝



本文編號:3274930

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/3274930.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶4b2f2***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com