基于XGBoost方法的社交網(wǎng)絡(luò)異常用戶檢測技術(shù)
發(fā)布時間:2021-08-01 05:31
針對傳統(tǒng)社交網(wǎng)絡(luò)異常用戶檢測算法應(yīng)用于現(xiàn)實中非平衡數(shù)據(jù)集時存在召回率低、運(yùn)行效率低等問題,對社交網(wǎng)絡(luò)數(shù)據(jù)集提取用戶內(nèi)容、行為、屬性、關(guān)系特征,應(yīng)用梯度增強(qiáng)集成分類器XGBoost算法進(jìn)行特征選擇,建立分類模型,構(gòu)造非平衡數(shù)據(jù)集并識別三類垃圾廣告發(fā)送賬號。實驗結(jié)果表明,該方法與隨機(jī)森林等傳統(tǒng)分類方法相比,對平衡及非平衡數(shù)據(jù)集進(jìn)行異常用戶檢測均實現(xiàn)召回率和F1值的有效提升;同時其選取少量特征同樣可達(dá)到較高檢測水平,證明了該方法的有效性。
【文章來源】:計算機(jī)應(yīng)用研究. 2020,37(03)北大核心CSCD
【文章頁數(shù)】:4 頁
【部分圖文】:
實驗步驟
社交網(wǎng)絡(luò)異常用戶檢測的本質(zhì)是將數(shù)據(jù)集中的所有樣本劃分為正常用戶及各類異常用戶的多分類任務(wù)。本文選擇XGBoost(extreme gradient boosting)[15]集成提升方法構(gòu)建分類模型。分類訓(xùn)練數(shù)據(jù)集的每一個樣本對應(yīng)社交網(wǎng)絡(luò)中的每一個用戶,由包含內(nèi)容、行為、屬性、關(guān)系等在內(nèi)的n維特征向量xi和對應(yīng)的p個類別標(biāo)簽yi構(gòu)成:{xi,yi}i∈[1,m],xi∈Rn,yi∈{class1,class2,…,classp};赬GBoost對用戶進(jìn)行分類的方法是通過學(xué)習(xí)輸入的訓(xùn)練樣本構(gòu)造分類模型,挖掘特征取值xi與類別標(biāo)簽yi的關(guān)系f(xi)=yi,從而預(yù)測新樣本的類別。整體檢測流程如圖1所示。對本文分類任務(wù),XGBoost每一輪訓(xùn)練都是在上一輪的基礎(chǔ)上迭代產(chǎn)生的,第t次迭代對生成樹構(gòu)造的目標(biāo)函數(shù)為
經(jīng)驗證,參數(shù)max_depth=3,n_estimators=100,n_threthould=none時,XGBoost可獲得最優(yōu)分類效果,如圖2、3所示。圖3為內(nèi)循環(huán)選擇模型參數(shù),外循環(huán)驗證實驗結(jié)果。圖3 實驗步驟
【參考文獻(xiàn)】:
期刊論文
[1]面向網(wǎng)絡(luò)輿情數(shù)據(jù)的異常行為識別[J]. 郝亞洲,鄭慶華,陳艷平,閆彩霞. 計算機(jī)研究與發(fā)展. 2016(03)
[2]基于RSBoost算法的不平衡數(shù)據(jù)分類方法[J]. 李克文,楊磊,劉文英,劉璐,劉洪太. 計算機(jī)科學(xué). 2015(09)
[3]在線社交網(wǎng)絡(luò)中異常帳號檢測方法研究[J]. 張玉清,呂少卿,范丹. 計算機(jī)學(xué)報. 2015(10)
碩士論文
[1]基于行為分析的社交網(wǎng)絡(luò)異常賬號的檢測[D]. 劉琛.北京交通大學(xué) 2017
本文編號:3314914
【文章來源】:計算機(jī)應(yīng)用研究. 2020,37(03)北大核心CSCD
【文章頁數(shù)】:4 頁
【部分圖文】:
實驗步驟
社交網(wǎng)絡(luò)異常用戶檢測的本質(zhì)是將數(shù)據(jù)集中的所有樣本劃分為正常用戶及各類異常用戶的多分類任務(wù)。本文選擇XGBoost(extreme gradient boosting)[15]集成提升方法構(gòu)建分類模型。分類訓(xùn)練數(shù)據(jù)集的每一個樣本對應(yīng)社交網(wǎng)絡(luò)中的每一個用戶,由包含內(nèi)容、行為、屬性、關(guān)系等在內(nèi)的n維特征向量xi和對應(yīng)的p個類別標(biāo)簽yi構(gòu)成:{xi,yi}i∈[1,m],xi∈Rn,yi∈{class1,class2,…,classp};赬GBoost對用戶進(jìn)行分類的方法是通過學(xué)習(xí)輸入的訓(xùn)練樣本構(gòu)造分類模型,挖掘特征取值xi與類別標(biāo)簽yi的關(guān)系f(xi)=yi,從而預(yù)測新樣本的類別。整體檢測流程如圖1所示。對本文分類任務(wù),XGBoost每一輪訓(xùn)練都是在上一輪的基礎(chǔ)上迭代產(chǎn)生的,第t次迭代對生成樹構(gòu)造的目標(biāo)函數(shù)為
經(jīng)驗證,參數(shù)max_depth=3,n_estimators=100,n_threthould=none時,XGBoost可獲得最優(yōu)分類效果,如圖2、3所示。圖3為內(nèi)循環(huán)選擇模型參數(shù),外循環(huán)驗證實驗結(jié)果。圖3 實驗步驟
【參考文獻(xiàn)】:
期刊論文
[1]面向網(wǎng)絡(luò)輿情數(shù)據(jù)的異常行為識別[J]. 郝亞洲,鄭慶華,陳艷平,閆彩霞. 計算機(jī)研究與發(fā)展. 2016(03)
[2]基于RSBoost算法的不平衡數(shù)據(jù)分類方法[J]. 李克文,楊磊,劉文英,劉璐,劉洪太. 計算機(jī)科學(xué). 2015(09)
[3]在線社交網(wǎng)絡(luò)中異常帳號檢測方法研究[J]. 張玉清,呂少卿,范丹. 計算機(jī)學(xué)報. 2015(10)
碩士論文
[1]基于行為分析的社交網(wǎng)絡(luò)異常賬號的檢測[D]. 劉琛.北京交通大學(xué) 2017
本文編號:3314914
本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/3314914.html
最近更新
教材專著