天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 管理論文 > 移動網絡論文 >

欺詐網頁挖掘中特征優(yōu)選及檢測性能研究

發(fā)布時間:2020-11-20 15:46
   隨著信息時代的蓬勃發(fā)展,互聯(lián)網在帶給人們方便的同時,也帶來了許多安全問題,其中,以網頁欺詐為核心的網絡詐騙行為肆意橫行。欺詐網頁通過各種偽裝手段欺騙搜索引擎,提高自身網頁排名,從而達到廣告、非法傳銷等目的。在網頁欺詐與反欺詐的博弈里,如何快速有效、低成本地檢測出欺詐網頁,加速構建和諧、安全的互聯(lián)網環(huán)境,成了刻不容緩的問題。在欺詐網頁檢測的研究中存在兩個挑戰(zhàn):一方面,網頁基本特征的高維、冗余增加了欺詐網頁檢測的計算消耗和計算代價,影響檢測效率;另一方面,挖掘欺詐網頁的過程中可能會泄露敏感數(shù)據的隱私。為了應對上述兩個挑戰(zhàn),提出了多種有效的特征選擇算法,并在此基礎上進一步提出一種兼顧數(shù)據隱私保護和檢測性能的特征選擇算法,以及一個高效安全的欺詐網頁檢測模型。本文首先深入研究了欺詐網頁的基本分類以及對應的網頁基本特征,并將研究重點放在網頁基本特征的優(yōu)選上,通過分析多種特征選擇算法,提出一種基于信息增益(Information Gain,IG)和遺傳算法(Genetic Algorithm,GA)的改進特征選擇算法IFS-BIGGA,并且得到了最佳最小的特征子集(OMFS)。為了分析對比IFS-BIGGA算法的有效性,本文另外實現(xiàn)了三種基于隨機森林和鄰域粗糙集的高效的特征選擇算法,實驗結果證明了IFS-BIGGA算法優(yōu)于其他特征選擇算法?紤]到欺詐網頁挖掘中數(shù)據隱私保護的重要性,本文結合網頁特征選擇,在IFSBIGGA的基礎上,加入基于條件熵的隱私度和置信度,實現(xiàn)了基于隱私保護的級聯(lián)特征選擇算法PPGAFS,解決了欺詐網頁挖掘中提高欺詐網頁檢測性能和保護數(shù)據隱私之間的矛盾,并在此基礎上提出了一個高效安全的欺詐網頁檢測模型WSDM,主要包括數(shù)據離散化、數(shù)據平衡化、特征選擇和分類檢測四個階段。為了驗證提出算法和模型的有效性,在WEBSPAM-UK2007數(shù)據集上進行了多組對比實驗,實驗結果表明了提出的基于PPGAFS的欺詐網頁檢測模型優(yōu)于其他多種新提出的檢測方案,有效保護了數(shù)據隱私,并且提高了欺詐網頁檢測性能。
【學位單位】:西南交通大學
【學位級別】:碩士
【學位年份】:2018
【中圖分類】:TP393.092
【文章目錄】:
摘要
abstract
第1章 緒論
    1.1 研究背景和意義
    1.2 國內外研究現(xiàn)狀
    1.3 研究內容和論文組織結構
        1.3.1 研究內容
        1.3.2 論文組織結構
第2章 相關技術研究
    2.1 網頁欺詐類型及相關網頁特征
        2.1.1 鏈接欺詐與基于鏈接的特征
        2.1.2 內容欺詐與基于內容的特征
        2.1.3 隱藏型欺詐與隱藏型特征
    2.2 特征選擇與分類
        2.2.1 特征選擇
        2.2.2 分類算法
    2.3 總結
第3章 基于信息增益和遺傳算法改進特征選擇策略
    3.1 改進的信息增益-特征選擇
    3.2 改進的遺傳算法
        3.2.1 染色體編碼
        3.2.2 遺傳算子
    3.3 基于信息增益和遺傳算法的改進特征選擇算法IFS-BIGGA
    3.4 數(shù)據集與評價指標
        3.4.1 數(shù)據集
        3.4.2 評價指標
        3.4.3 箱型圖
    3.5 基于IFS-BIGGA的特征選擇實驗與結果分析
        3.5.1 實驗參數(shù)設置
        3.5.2 特征選擇實驗結果
        3.5.3 驗證性實驗與結果分析
    3.6 三種特征選擇算法與實驗結果對比
        3.6.1 基于比例刪除的隨機森林特征選擇算法PDRFFS
RFFS'>        3.6.2 基于卡方檢驗的隨機森林特征選擇算法Chi-SquareRFFS
        3.6.3 基于鄰域粗糙集的特征選擇算法FHARA
    3.7 本章小結
第4章 基于隱私保護的級聯(lián)特征選擇算法
    4.1 隱私度與置信度
    4.2 隱私保護-特征選擇
    4.3 基于隱私保護和遺傳算法的級聯(lián)特征選擇算法PPGAFS
    4.4 數(shù)據集與評價指標
    4.5 實驗與結果分析
    4.6 本章小結
第5章 一個高效安全的欺詐網頁檢測模型
    5.1 欺詐網頁檢測模型WSDM
    5.2 基于WSDM的驗證實驗
    5.3 本章小結
總結與展望
    總結
    展望
致謝
參考文獻
攻讀碩士期間發(fā)表的論文

【參考文獻】

相關期刊論文 前10條

1 王嘉卿;朱焱;陳同孝;張真誠;;欺詐網頁檢測中基于遺傳算法的特征優(yōu)選[J];計算機應用;2018年01期

2 盧曉勇;陳木生;;基于隨機森林和欠采樣集成的垃圾網頁檢測[J];計算機應用;2016年03期

3 韋莎;朱焱;;主題相似度與鏈接權重相結合的垃圾網頁排序檢測[J];計算機應用;2016年03期

4 陸釗;李石君;;基于鏈接相似度和作弊系數(shù)的Spam網頁識別算法[J];計算機工程與科學;2015年10期

5 吳少華;程書寶;胡勇;;基于SVM的Web攻擊檢測技術[J];計算機科學;2015年S1期

6 宋源;梁雪春;張然;;基于統(tǒng)計特性隨機森林算法的特征選擇[J];計算機應用;2015年05期

7 董師師;黃哲學;;隨機森林理論淺析[J];集成技術;2013年01期

8 羅武;方逵;朱興輝;;網絡搜索引擎排序算法研究進展[J];湖南農業(yè)科學;2010年07期

9 常璐,夏祖奇;搜索引擎的幾種常用排序算法[J];圖書情報工作;2003年06期

10 沈學華,周志華,吳建鑫,陳兆乾;Boosting和Bagging綜述[J];計算機工程與應用;2000年12期


相關碩士學位論文 前5條

1 孫丹丹;集成URL新特征的網絡釣魚檢測機制研究[D];西南交通大學;2017年

2 江雄偉;偽裝型垃圾網頁檢測技術的研究與實現(xiàn)[D];西南交通大學;2014年

3 李法良;集成Web質量的垃圾網頁分級檢測機制研究[D];西南交通大學;2013年

4 王莉麗;隱藏型垃圾網頁檢測研究[D];西南交通大學;2013年

5 周政;隱藏型垃圾網頁檢測技術的研究與實現(xiàn)[D];西南交通大學;2012年



本文編號:2891640

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/2891640.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶f145f***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com