基于行為相似性的網(wǎng)絡(luò)用戶識別系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
【學(xué)位單位】:北京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2018
【中圖分類】:TP393.0
【部分圖文】:
基于行為相似性的網(wǎng)絡(luò)用戶識別系統(tǒng)算法設(shè)計(jì),所占比例太大,樣本比例嚴(yán)重不均衡,這兩個(gè)方面成嚴(yán)重的影響。因此,若采用傳統(tǒng)的PUJeaming算樣本,一方面本身正樣本數(shù)量遠(yuǎn)小于無標(biāo)簽樣本,會引入更多噪聲;另一方面樸素貝葉斯算法在小規(guī)模網(wǎng)絡(luò)用戶識別所面臨的海量數(shù)據(jù),會存在較大偏差。逡逑用于分類的本質(zhì),可以理解為就是在空間中構(gòu)造一以將越多的正負(fù)樣本分離開,就認(rèn)為這個(gè)分類器的y邋.逡逑
圖3-5實(shí)驗(yàn)數(shù)據(jù)格式逡逑特征值之間以tab隔開,不同樣本換行。數(shù)據(jù)格式適應(yīng)于Python相關(guān)機(jī)器函數(shù)庫對數(shù)據(jù)文件的讀取支持。逡逑.2實(shí)驗(yàn)過程與結(jié)果逡逑在訓(xùn)練數(shù)據(jù)進(jìn)入模型之前,需要對其做一些處理以保障結(jié)果準(zhǔn)確性。主要個(gè)方面的處理。逡逑(1)在無標(biāo)簽樣本的提取過程中,由于之前的處理過程,包括流量的采集,逡逑TP流重組,正則匹配寫入Hive表,存在按照IP分組或者構(gòu)建鏈表等相關(guān),所以樣本數(shù)據(jù)在Hive表中按照IP存在一定順序進(jìn)行排列。為保證訓(xùn)練樣于IP分布均勻,分布區(qū)域更加廣泛合理,在提取無標(biāo)簽樣本參與訓(xùn)練的過,采用隨機(jī)抽取的思想,利用shuffle函數(shù)過程從全排列中得到隨機(jī)數(shù)組,數(shù)組下標(biāo)從無標(biāo)簽樣本中提取相應(yīng)下標(biāo)的數(shù)據(jù),盡量保證數(shù)據(jù)分布均勻,具表性。逡逑(2)訓(xùn)練樣本數(shù)不均衡,正樣本較少而無標(biāo)簽樣本數(shù)目很大。需要確定訓(xùn)練過程中合適的正樣本和無標(biāo)簽樣本的比例。一般而言,機(jī)器學(xué)習(xí)的正負(fù)
圖3-7正樣本各項(xiàng)指標(biāo)逡逑因此,實(shí)驗(yàn)中以1:3的比例提取訓(xùn)練樣本。首先,所有未標(biāo)記的樣本被視本,并使用GBDT直接進(jìn)行訓(xùn)練。正負(fù)樣本的準(zhǔn)確率和召回率如表3-1邐表3-1邋GBDT運(yùn)行指標(biāo)結(jié)果邐逡逑一類別邋準(zhǔn)確率|召回率|邋F1指數(shù)逡逑0邐0.93邐0.97邐0.95逡逑邐1邐0.89邐0.78邐0.83逡逑GBDT每一棵子樹雖然都為回歸樹,但設(shè)定閾值對回歸值進(jìn)行劃分就可以樹改為分類樹,默認(rèn)閾值為0.5。第一步GBDT模型為分類模型,得到有分類結(jié)果,即1或0,邋1代表判定為正,0代表判定為負(fù)。準(zhǔn)確率召回標(biāo)的統(tǒng)計(jì)也是基于將所有無標(biāo)簽樣本視為負(fù)樣本的基礎(chǔ),這里的0,實(shí)際的是無標(biāo)簽樣本。由于實(shí)驗(yàn)的目的是獲取屬于同一用戶的帳戶對,因此此準(zhǔn)確率和召回率實(shí)際意義其實(shí)只是一定程度上幫助衡量分類器的好壞。正25逡逑
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 徐湛;;臺區(qū)用戶識別儀應(yīng)用分析[J];計(jì)量與測試技術(shù);2009年11期
2 ;用戶識別卡里有什么[J];監(jiān)督與選擇;1998年12期
3 蔡秋蕓;;脈沖載波技術(shù)在臺區(qū)用戶識別中的應(yīng)用[J];科技創(chuàng)新導(dǎo)報(bào);2010年24期
4 梁萬榮;;載波技術(shù)在臺區(qū)用戶識別中的應(yīng)用[J];農(nóng)村電氣化;2007年03期
5 梁萬榮;;載波技術(shù)在臺區(qū)用戶識別中的應(yīng)用[J];江西電力職業(yè)技術(shù)學(xué)院學(xué)報(bào);2007年02期
6 朱皖寧;劉志昊;;基于量子計(jì)算的用戶識別算法[J];電子學(xué)報(bào);2018年01期
7 范荻;李紹山;李海濤;王衛(wèi);;臺區(qū)用戶識別儀關(guān)鍵技術(shù)應(yīng)用研究[J];華北電力技術(shù);2010年07期
8 原欣偉;楊少華;王超超;杜占河;;基于用戶特征抽取和隨機(jī)森林分類的用戶創(chuàng)新社區(qū)領(lǐng)先用戶識別研究[J];數(shù)據(jù)分析與知識發(fā)現(xiàn);2017年11期
9 李楠;;基于改進(jìn)PROMETHEE的領(lǐng)先用戶識別方法[J];數(shù)學(xué)的實(shí)踐與認(rèn)識;2014年10期
10 艾達(dá);羅愛平;;移動通信重入網(wǎng)用戶識別算法分析研究[J];西安郵電學(xué)院學(xué)報(bào);2012年03期
相關(guān)會議論文 前3條
1 童建剛;;計(jì)算機(jī)用戶識別技術(shù)[A];第三次全國計(jì)算機(jī)安全技術(shù)交流會論文集[C];1988年
2 呂華輝;吳丹;;基于社交關(guān)系和語義特征的異常微博用戶識別[A];2015電力行業(yè)信息化年會論文集[C];2015年
3 孫偉;周燦;徐春虎;房晨婕;張超;李占先;嚴(yán)純?nèi)A;;構(gòu)筑具有用戶識別能力的分子計(jì)算平臺[A];中國化學(xué)會第26屆學(xué)術(shù)年會無機(jī)與配位化學(xué)分會場論文集[C];2008年
相關(guān)重要報(bào)紙文章 前6條
1 康梁;幫用戶識別耗材真?zhèn)蝃N];中華工商時(shí)報(bào);2000年
2 本報(bào)記者 劉可;大數(shù)據(jù)如何支撐汽車產(chǎn)業(yè)未來[N];中華工商時(shí)報(bào);2015年
3 趙慧玲 吳江;VPN放心用[N];中國計(jì)算機(jī)報(bào);2001年
4 本報(bào)記者 張海燕;汽車大數(shù)據(jù)時(shí)代悄然來臨[N];中國質(zhì)量報(bào);2015年
5 夏馬江 整理;張小萍委員:建立和完善閩東政務(wù)官方微博[N];閩東日報(bào);2016年
6 斯倫貝謝技術(shù)(亞洲)有限公司 楊凱莉;SIM卡與WAP應(yīng)用的配合——WIM卡[N];中國電子報(bào);2000年
相關(guān)博士學(xué)位論文 前3條
1 李楠;軟件產(chǎn)品創(chuàng)新中的領(lǐng)先用戶識別研究[D];東北財(cái)經(jīng)大學(xué);2012年
2 劉士喜;社會網(wǎng)絡(luò)環(huán)境下基于信任關(guān)系的影響用戶識別方法研究[D];合肥工業(yè)大學(xué);2016年
3 楊波;大規(guī)模定制產(chǎn)品開發(fā)中的領(lǐng)先用戶識別與參與行為研究[D];重慶大學(xué);2011年
相關(guān)碩士學(xué)位論文 前10條
1 曾思源;基于行為相似性的網(wǎng)絡(luò)用戶識別系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];北京郵電大學(xué);2018年
2 李自豪;微博惡意用戶識別方法的研究[D];北京交通大學(xué);2017年
3 楊少華;在線創(chuàng)新社區(qū)領(lǐng)先用戶識別研究[D];西安理工大學(xué);2017年
4 陳曉萍;一種新的基于用戶識別的圖形口令機(jī)制的設(shè)計(jì)與實(shí)現(xiàn)[D];西安電子科技大學(xué);2009年
5 趙建勛;微博惡意用戶識別[D];北京交通大學(xué);2016年
6 李桐;消費(fèi)類軟件產(chǎn)品的領(lǐng)先用戶識別研究[D];東北財(cái)經(jīng)大學(xué);2013年
7 何榮華;智能云電視的用戶識別系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];大連理工大學(xué);2014年
8 潘培龍;面向高速流量環(huán)境的網(wǎng)絡(luò)用戶識別技術(shù)研究[D];東南大學(xué);2017年
9 李福明;基于海量信令數(shù)據(jù)的服務(wù)業(yè)線上活躍用戶識別系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];北京郵電大學(xué);2015年
10 田中生;基于影響力的社會網(wǎng)絡(luò)關(guān)鍵用戶識別方法研究[D];吉林大學(xué);2015年
本文編號:2830242
本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/2830242.html