基于網(wǎng)絡(luò)數(shù)據(jù)包挖掘用戶(hù)行為規(guī)則
第 1 章 緒論
1.1 研究的背景及意義
互聯(lián)網(wǎng)自 1969 年誕生以來(lái),逐步改變著人類(lèi)的生活方式。互聯(lián)網(wǎng)最初用于網(wǎng)絡(luò)通信與數(shù)據(jù)傳輸,經(jīng)過(guò)近 50 年的發(fā)展,互聯(lián)網(wǎng)應(yīng)用已經(jīng)融入進(jìn)我們生活的方方面面。我們可以通過(guò)各大門(mén)戶(hù)網(wǎng)站獲取新聞、財(cái)經(jīng)、體育、時(shí)尚等各個(gè)方面的信息;通過(guò)電子商務(wù)網(wǎng)站,我們可以網(wǎng)上購(gòu)物、理財(cái)投資、出行旅游等。我們可以利用網(wǎng)絡(luò)資源,進(jìn)行遠(yuǎn)程教育,拓展知識(shí)領(lǐng)域;通過(guò)互聯(lián)網(wǎng),我們可以觀看文字、音頻、視頻、圖片、游戲和多媒體數(shù)據(jù),在業(yè)余時(shí)間休閑娛樂(lè);通過(guò)各種社交網(wǎng)站、社交軟件,與他人進(jìn)行交流互動(dòng),拉近彼此距離,增進(jìn)感情。 隨著網(wǎng)絡(luò)規(guī)模的不斷擴(kuò)大,網(wǎng)絡(luò)信息爆炸式增長(zhǎng),如何有效的管理網(wǎng)絡(luò),營(yíng)造一個(gè)安全、穩(wěn)定、高效和健康的網(wǎng)絡(luò)環(huán)境,成為亟待解決的問(wèn)題。網(wǎng)絡(luò)管理的出現(xiàn)很好的解決了這個(gè)問(wèn)題。網(wǎng)絡(luò)管理協(xié)調(diào)軟件和硬件,滿(mǎn)足網(wǎng)絡(luò)用戶(hù)需求;及時(shí)排除故障,保證網(wǎng)絡(luò)正常運(yùn)行。 互聯(lián)網(wǎng)給我們帶來(lái)便利的同時(shí),也帶來(lái)了許多問(wèn)題。許多人沉溺于網(wǎng)絡(luò)游戲,特別是青少年兒童;過(guò)多的上網(wǎng)時(shí)間使得人們幾乎沒(méi)有時(shí)間去鍛煉身體;一些人甚至更喜歡在網(wǎng)上交流而忽視與真實(shí)世界的人們交流;不健康的信息充斥于互聯(lián)網(wǎng);虛假的信息遍布于互聯(lián)網(wǎng)等等。此外,2013 年發(fā)生的斯諾登事件,以及隨后曝出的棱鏡事件等監(jiān)聽(tīng)事件,使得生活在信息時(shí)代的我們每一個(gè)人都開(kāi)始懷疑,互聯(lián)網(wǎng)是否還安全,我們的隱私是否還存在。更可怕的是,恐怖主義利用互聯(lián)網(wǎng)進(jìn)行現(xiàn)代化的宣傳,造成恐怖主義思想在互聯(lián)網(wǎng)上蔓延,各種社交網(wǎng)站成了重災(zāi)區(qū)。例如 IS 招募成員,越來(lái)越多使用現(xiàn)代社交手段并通過(guò)網(wǎng)絡(luò)宣傳極端主義思想。 因此,合理利用互聯(lián)網(wǎng)資源,營(yíng)造一個(gè)安全、穩(wěn)定、高效和健康的網(wǎng)絡(luò)環(huán)境,就需要對(duì)包含所有互聯(lián)網(wǎng)信息的網(wǎng)絡(luò)流量------網(wǎng)絡(luò)數(shù)據(jù)包,進(jìn)行有效的分析。捕獲網(wǎng)絡(luò)數(shù)據(jù)包,進(jìn)而解析網(wǎng)絡(luò)數(shù)據(jù)包,利用數(shù)據(jù)挖掘技術(shù),發(fā)現(xiàn)用戶(hù)行為規(guī)則。利用用戶(hù)行為規(guī)則,我們可以對(duì)正確利用互聯(lián)網(wǎng)的用戶(hù),推送他們感興趣的信息;對(duì)于錯(cuò)誤利用互聯(lián)網(wǎng)的用戶(hù),我們能夠加以限制。
...........
1.2 歷史與發(fā)展趨勢(shì)
互聯(lián)網(wǎng)誕生于 1969 年,主要用于網(wǎng)絡(luò)通信和數(shù)據(jù)傳輸。由于互聯(lián)網(wǎng)是一個(gè)極為復(fù)雜的系統(tǒng),由大量的應(yīng)用程序和協(xié)議、各種類(lèi)型的端系統(tǒng)、分組交換和各種類(lèi)型的鏈路級(jí)媒體。如何協(xié)調(diào)互聯(lián)網(wǎng)各個(gè)部分資源,完成各種大而復(fù)雜的互聯(lián)網(wǎng)活動(dòng),成為亟待解決的問(wèn)題。 分層的體系結(jié)構(gòu)很好的解決了這一問(wèn)題。每個(gè)層次通過(guò)以下方式提供了他的服務(wù):第一,在這層中執(zhí)行了某些動(dòng)作;第二,使用直接下層的服務(wù)。典型的協(xié)議棧有 ISO 的 7 層模型、TCP/IP 的 5 層模型。 互聯(lián)網(wǎng)廣泛應(yīng)用于現(xiàn)實(shí)生活。我們可以網(wǎng)上購(gòu)物、查閱資料、瀏覽信息、在線(xiàn)學(xué)習(xí),還可以網(wǎng)上聊天、娛樂(lè)游戲等等;ヂ(lián)網(wǎng)給我們帶來(lái)各種各樣的便利的同時(shí),也帶來(lái)了許多互聯(lián)網(wǎng)低俗內(nèi)容。為此,世界各國(guó)加大了對(duì)互聯(lián)網(wǎng)傳播內(nèi)容的監(jiān)管力度。例如,我國(guó)自 2011年起,為了打擊利用互聯(lián)網(wǎng)制作傳播淫穢色情信息行為,發(fā)起了數(shù)次“凈網(wǎng)行動(dòng)”。 此外,互聯(lián)網(wǎng)安全問(wèn)題也越來(lái)越突出;ヂ(lián)網(wǎng)快速發(fā)展,攻擊與入侵等安全問(wèn)題也與日俱增。網(wǎng)絡(luò)攻擊、病毒木馬、偽基站、APT 攻擊、無(wú)線(xiàn)網(wǎng)絡(luò)成為網(wǎng)絡(luò)安全的主要威脅。 為了營(yíng)造一個(gè)安全、穩(wěn)定、高效和健康的網(wǎng)絡(luò)環(huán)境,就需要對(duì)各種各樣的網(wǎng)絡(luò)攻擊行為加以預(yù)防。我們可以從以上幾個(gè)方面入手加強(qiáng)互聯(lián)網(wǎng)安全措施,例如物理措施、訪(fǎng)問(wèn)控制、數(shù)據(jù)加密、使用信息過(guò)濾、容錯(cuò)、數(shù)據(jù)鏡像、數(shù)據(jù)備份和審計(jì)、數(shù)據(jù)加密技術(shù)、防火墻、入侵檢測(cè)系統(tǒng)、密鑰管理、數(shù)字簽名、認(rèn)證技術(shù)、智能卡技術(shù)等等。 但是,多種多樣的攻擊手段,使得互聯(lián)網(wǎng)安全保護(hù)措施,總是處于被動(dòng)地位,經(jīng)常是滯后的。為此,能否提出一種積極的互聯(lián)網(wǎng)安全保護(hù)措施,在攻擊行為未發(fā)生時(shí)就可以進(jìn)行預(yù)測(cè),從而使互聯(lián)網(wǎng)安全措施贏得主動(dòng)。 為此,我們想到互聯(lián)網(wǎng)通信的本質(zhì)就是數(shù)據(jù)包的交換,數(shù)據(jù)包中包含了網(wǎng)絡(luò)用戶(hù)的所有信息。如果能夠獲取網(wǎng)絡(luò)數(shù)據(jù)包,對(duì)網(wǎng)絡(luò)數(shù)據(jù)包信息進(jìn)行解析,利用數(shù)據(jù)挖掘技術(shù),發(fā)現(xiàn)用戶(hù)行為規(guī)則。利用用戶(hù)行為規(guī)則,了解不同網(wǎng)絡(luò)用戶(hù)關(guān)心的領(lǐng)域。 我們可以利用網(wǎng)絡(luò)用戶(hù)關(guān)心得領(lǐng)域,在多個(gè)方面加以應(yīng)用。從商業(yè)角度,我們可以向潛在的消費(fèi)群體,推薦其感興趣的商品和服務(wù);從互聯(lián)網(wǎng)安全角度,我們可以根據(jù)用戶(hù)行為,發(fā)現(xiàn)潛在的網(wǎng)絡(luò)攻擊者;從社會(huì)安全角度,我們可以根據(jù)網(wǎng)絡(luò)用戶(hù)在互聯(lián)網(wǎng)上的瀏覽行為、發(fā)表言論內(nèi)容,把握其思想活動(dòng),預(yù)測(cè)其在真實(shí)世界中犯罪的可能性等等。
.........
第 2 章 網(wǎng)絡(luò)數(shù)據(jù)包的捕獲與協(xié)議解析
2.1 計(jì)算機(jī)網(wǎng)絡(luò)分層的體系結(jié)構(gòu)
計(jì)算機(jī)網(wǎng)絡(luò)非常復(fù)雜,為了能夠進(jìn)行網(wǎng)絡(luò)通信和數(shù)據(jù)傳輸,計(jì)算機(jī)網(wǎng)絡(luò)采用分層的體系結(jié)構(gòu),以保證相互通信的兩個(gè)計(jì)算機(jī)系統(tǒng)能夠協(xié)調(diào)工作,從而將問(wèn)題轉(zhuǎn)化為若干較小的局部問(wèn)題。國(guó)際標(biāo)準(zhǔn)化組織 ISO 為了不同體系結(jié)構(gòu)的計(jì)算機(jī)網(wǎng)絡(luò)能夠互聯(lián)互通,提出開(kāi)放系統(tǒng)互聯(lián)基本參考模型 OSI/RM(Open Systems Interconnection Reference Model),簡(jiǎn)稱(chēng) OSI。該模型只是抽象模型,由于它將計(jì)算機(jī)網(wǎng)絡(luò)分成 7 層,因此又被稱(chēng)為 OSI/RM 7 層模型。然而,在上世紀(jì) 90 年代初,盡管 OSI 國(guó)際標(biāo)準(zhǔn)已經(jīng)制定,但因特網(wǎng)已經(jīng)在全世界大范圍覆蓋。一般來(lái)說(shuō),網(wǎng)絡(luò)技術(shù)和設(shè)備只有符合有關(guān)的國(guó)際標(biāo)準(zhǔn)才能得到廣泛應(yīng)用。但 TCP/IP被廣泛應(yīng)用,成為事實(shí)國(guó)際標(biāo)準(zhǔn)。
..............
2.2 網(wǎng)絡(luò)數(shù)據(jù)包的捕獲
捕獲網(wǎng)絡(luò)數(shù)據(jù)包可以使用被動(dòng)捕獲的方法實(shí)現(xiàn)。 網(wǎng)絡(luò)用戶(hù)間的信息交換,是通過(guò)數(shù)據(jù)包的交換實(shí)現(xiàn)的,而識(shí)別鏈路上數(shù)據(jù)包是否是發(fā)給自己的,實(shí)際上是通過(guò)網(wǎng)卡實(shí)現(xiàn)的。網(wǎng)卡有四種工作模式:1、直接模式;2、廣播模式;3、多播模式;4、混雜模式。工作在直接模式下的網(wǎng)卡會(huì)對(duì)流經(jīng)本網(wǎng)卡的數(shù)據(jù)包分析其 MAC 地址,與本網(wǎng)卡的 MAC比較。如果匹配成功,則接收該數(shù)據(jù)包,并將數(shù)據(jù)包傳遞給上層協(xié)議;如果匹配失敗,則放棄接收該數(shù)據(jù)包。廣播模式下的網(wǎng)卡會(huì)接收所有 MAC 地址為 0xffffff 的數(shù)據(jù)包。多播模式下的網(wǎng)卡可以接收所有的多播傳送幀,無(wú)論組內(nèi)組外;祀s模式(Promiscuous)下的網(wǎng)卡,經(jīng)過(guò)此網(wǎng)卡的所有數(shù)據(jù)包都能夠被接收,即使數(shù)據(jù)包不是發(fā)給自己。默認(rèn)情況下,網(wǎng)卡工作在直接模式和廣播模式下。采用 CSMA/CD 這種廣播信道爭(zhēng)用的方式的以太網(wǎng) IEEE802.3 標(biāo)準(zhǔn),使得各站點(diǎn)可以捕獲其他站點(diǎn)發(fā)送的數(shù)據(jù)。因此,將網(wǎng)卡工作模式設(shè)為混雜模式,是進(jìn)行被動(dòng)捕獲網(wǎng)絡(luò)數(shù)據(jù)包的前提。
............
第 3 章 關(guān)聯(lián)規(guī)則挖掘 ......... 22
3.1 概述 ......... 22
3.1.1 基本概念......... 22
3.1.2 關(guān)聯(lián)規(guī)則挖掘的步驟 ......... 23
3.2 關(guān)聯(lián)規(guī)則挖掘的算法 .......... 23
3.2.1 發(fā)現(xiàn)頻繁項(xiàng)集的經(jīng)典算法 ........ 24
3.2.2 優(yōu)化的關(guān)聯(lián)規(guī)則挖掘算法 ........ 24
3.3 關(guān)聯(lián)規(guī)則挖掘的數(shù)據(jù)集類(lèi)型 ...... 24
3.4 本文處理的數(shù)據(jù)集類(lèi)型 ....... 25
3.5 本章小結(jié) ......... 25
第 4 章 實(shí)驗(yàn)設(shè)計(jì)與實(shí)驗(yàn)結(jié)果 .... 26
4.1 捕獲網(wǎng)絡(luò)數(shù)據(jù)包數(shù)據(jù) .......... 26
4.1.1 捕獲平臺(tái)........ 26
4.1.2 數(shù)據(jù)捕獲策略 ....... 27
4.1.3 網(wǎng)絡(luò)數(shù)據(jù)包捕獲結(jié)果 .......... 28
4.2 網(wǎng)絡(luò)數(shù)據(jù)包數(shù)據(jù)的協(xié)議解析 ..... 29
4.3 生成網(wǎng)絡(luò)數(shù)據(jù)包數(shù)據(jù)集統(tǒng)計(jì)信息 .... 38
4.4 關(guān)聯(lián)規(guī)則挖掘........ 41
4.4 本章小結(jié) ........ 46
第 5 章 總結(jié) .......... 47
第 4 章 實(shí)驗(yàn)設(shè)計(jì)與實(shí)驗(yàn)結(jié)果
4.1 捕獲網(wǎng)絡(luò)數(shù)據(jù)包數(shù)據(jù)
操作系統(tǒng)使用 Ubuntu,個(gè)人使用版本為 ubuntu-15.10,值得注意的是一定要選擇與自己的計(jì)算機(jī) CPU 系列相符的 Ubuntu 版本,這里我們選擇 ubuntu-15.10-desktop-amd64.iso。檢查有線(xiàn)網(wǎng)卡、無(wú)線(xiàn)網(wǎng)卡驅(qū)動(dòng)是否正確安裝。經(jīng)常會(huì)出現(xiàn)無(wú)線(xiàn)網(wǎng)卡驅(qū)動(dòng)未成功安裝,可以在 System Settings 中的 Additional Drivers 執(zhí)行自動(dòng)搜索,然后 active,最后 reboot使得設(shè)置生效。確保計(jì)算機(jī)在有線(xiàn)環(huán)境、無(wú)線(xiàn)環(huán)境能正常接入互聯(lián)網(wǎng)。本實(shí)驗(yàn)是在吉林大學(xué)校園網(wǎng)內(nèi),依靠有線(xiàn)、無(wú)線(xiàn)兩種方式接入吉林大學(xué)校園網(wǎng)。需要注意的是,吉林大學(xué)校園網(wǎng)客戶(hù)端Dr Client.zip 不要在 windows 下解壓再?gòu)?fù)制到 Ubuntu 操作系統(tǒng),這是因?yàn)檫@樣獲得的文件,在 Ubuntu 下沒(méi)有可執(zhí)行權(quán)限。安裝網(wǎng)絡(luò)數(shù)據(jù)包捕獲工具 netsniff-ng,,可以在 Terminal 中輸入 sudo apt-get install netsniff-ng,即可完成 netsniff-ng 的安裝。執(zhí)行 netsniff-ng 必須要 root 權(quán)限,獲取netsniff-ng 的幫助文檔請(qǐng)?jiān)?Terminal 中輸入 man netsniff-ng。通過(guò) netsniff-ng –V得知當(dāng)前 netsniff-ng 版本為 0.5.9。 從網(wǎng)絡(luò)接口卡接口名為 wlp2s0 的網(wǎng)卡捕獲數(shù)據(jù)包,并將數(shù)據(jù)包數(shù)據(jù)以文件形式存儲(chǔ)到/opt/目錄下,在捕獲過(guò)程中不向 Terminal 打印捕獲數(shù)據(jù),捕獲并寫(xiě)入 pcap 文件中時(shí)使用mmap I/O,每一個(gè)捕獲文件接收 10 分鐘內(nèi)的數(shù)據(jù),使用 cup 編號(hào)為 0 的處理器進(jìn)行捕獲。
總結(jié)
本文先介紹網(wǎng)絡(luò)數(shù)據(jù)流量獲取的方式被動(dòng)捕獲,進(jìn)而探討影響網(wǎng)絡(luò)數(shù)據(jù)包捕獲效率的因素,最終選擇基于零拷貝技術(shù)思想的 netsniff-ng,作為網(wǎng)絡(luò)數(shù)據(jù)包捕獲工具。而后,又探討了關(guān)聯(lián)規(guī)則挖掘的基礎(chǔ)知識(shí),并簡(jiǎn)要介紹了關(guān)聯(lián)規(guī)則挖掘的基本和改進(jìn)算法。最后,將關(guān)聯(lián)規(guī)則挖掘應(yīng)用于離線(xiàn)網(wǎng)絡(luò)數(shù)據(jù)包數(shù)據(jù)集,挖掘用戶(hù)行為規(guī)則。 本文探討的是關(guān)聯(lián)規(guī)則挖掘算法應(yīng)用于網(wǎng)絡(luò)流量數(shù)據(jù)的具體應(yīng)用。以往對(duì)網(wǎng)絡(luò)流量數(shù)據(jù)應(yīng)用數(shù)據(jù)挖掘算法,更多是從網(wǎng)絡(luò)安全角度考慮,例如基于數(shù)據(jù)挖掘的入侵檢測(cè)系統(tǒng)和防火墻。入侵檢測(cè)系統(tǒng)是根據(jù)協(xié)議字段,判斷是否發(fā)生入侵行為;防護(hù)墻更側(cè)重將內(nèi)部網(wǎng)絡(luò)和外部網(wǎng)絡(luò)分開(kāi),從而為內(nèi)部網(wǎng)絡(luò)提供安全保護(hù)。但是,以這種方式為計(jì)算機(jī)提供安全保護(hù),總是處于被動(dòng)。為此,我們重點(diǎn)對(duì)網(wǎng)絡(luò)流量數(shù)據(jù)------網(wǎng)絡(luò)數(shù)據(jù)包應(yīng)用層信息進(jìn)行關(guān)聯(lián)規(guī)則分析,進(jìn)而刻畫(huà)出隱藏在計(jì)算機(jī)背后的網(wǎng)絡(luò)用戶(hù)的行為特征,從而為網(wǎng)絡(luò)安全維護(hù)人員提供一份“黑名單”,這些人很可能是損壞網(wǎng)絡(luò)安全的潛在人群,需要給予更多的關(guān)注。因此,挖掘網(wǎng)絡(luò)用戶(hù)行為規(guī)則從網(wǎng)絡(luò)安全角度,可以認(rèn)為是一種主動(dòng)的防御手段。此外,我們還可以利用網(wǎng)絡(luò)用戶(hù)行為規(guī)則為識(shí)別出網(wǎng)絡(luò)用戶(hù)的興趣域,從而為服務(wù)行業(yè)完善服務(wù)質(zhì)量、商家發(fā)現(xiàn)潛在的客戶(hù)群提供決策支持。當(dāng)然,在互聯(lián)網(wǎng)上經(jīng)常發(fā)表帶有強(qiáng)烈激進(jìn)思想的言論的人,很有可能在真實(shí)世界中實(shí)施暴力行為,危害公共安全。例如,美國(guó)校園槍擊案的兇手,在案發(fā)前在社交媒體就已經(jīng)發(fā)表過(guò)激進(jìn)的言論,如果能及早的識(shí)別出網(wǎng)絡(luò)用戶(hù)行為的異常,就可以阻止許多悲劇?植澜M織利用互聯(lián)網(wǎng),宣傳恐怖主義思想、招募成員?植婪肿诱抢昧宋覀儗(duì)網(wǎng)絡(luò)用戶(hù)行為管控不力的這個(gè)弱點(diǎn),使得我們?cè)诨ヂ?lián)網(wǎng)上打擊恐怖主義思潮泛濫總是處于被動(dòng)的防御。通過(guò)對(duì)網(wǎng)絡(luò)流量的挖掘,分析出網(wǎng)絡(luò)用戶(hù)行為規(guī)則,能夠使我們?cè)诖驌艨植乐髁x的過(guò)程中處于主動(dòng)。
.........
參考文獻(xiàn)(略)
本文編號(hào):117688
本文鏈接:http://www.sikaile.net/wenshubaike/shuzhibaogao/117688.html