天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 碩博論文 > 信息類碩士論文 >

基于隨機(jī)森林的IP城市級定位方法研究

發(fā)布時間:2022-02-17 12:48
  21世紀(jì)以來,互聯(lián)網(wǎng)訊速發(fā)展,成為了人們在日常生活中必不可少的工具。隨著互聯(lián)網(wǎng)的普及,線上服務(wù)和網(wǎng)絡(luò)通信成為一種趨勢;ヂ(lián)網(wǎng)上的個性化推送服務(wù),如定向廣告投放、網(wǎng)頁語言自動選擇、當(dāng)?shù)匦侣剬?shí)時推送,以及網(wǎng)絡(luò)安全問題的溯源追蹤等都需要IP定位技術(shù),即根據(jù)每個網(wǎng)絡(luò)主機(jī)唯一的IP地址標(biāo)識確定其所在的地理位置。雖然現(xiàn)在已經(jīng)有許多優(yōu)秀的IP定位技術(shù),但或多或少都存在著一定的局限性,例如網(wǎng)絡(luò)測量的精確度不高,變量之間的關(guān)系無法準(zhǔn)確衡量等等。因此,本文主要提出了一種基于數(shù)據(jù)挖掘的IP城市級定位方法,該方法以IP地址本身作為特征,利用隨機(jī)森林算法訓(xùn)練得到分類器,得到了較好的預(yù)測效果。本文對現(xiàn)有的經(jīng)典的IP定位方法進(jìn)行了研究和分析,指出它們存在的不足,提出了基于隨機(jī)森林的IP城市級定位模型。首先,在模型設(shè)計(jì)中,為了獲取較高精確度的IP訓(xùn)練集,提出對不同的源數(shù)據(jù)庫進(jìn)行數(shù)據(jù)融合,并設(shè)計(jì)了一個引入堆結(jié)構(gòu)的數(shù)據(jù)庫融合算法,該算法主要是對各個庫的IP記錄進(jìn)行屬性融合。實(shí)驗(yàn)中選取了兩種不同的數(shù)據(jù)庫組合方式,通過對比分析發(fā)現(xiàn),第二組實(shí)驗(yàn)結(jié)果更好,具體表現(xiàn)在其中的省份信息能全部識別出來,城市識別率也提升了19倍。其次,本... 

【文章來源】:山西大學(xué)山西省

【文章頁數(shù)】:53 頁

【學(xué)位級別】:碩士

【部分圖文】:

基于隨機(jī)森林的IP城市級定位方法研究


技術(shù)路線圖

原理圖,原理圖,算法,數(shù)據(jù)庫


第二章理論基礎(chǔ)和相關(guān)技術(shù)介紹9圖2.1CBG算法原理圖給定一些地理位置已知的探測點(diǎn)地標(biāo)L{A,B,C,…},測量從多個探測點(diǎn)到目標(biāo)IP節(jié)點(diǎn)X的時延向量T{T1,T2,T3…},根據(jù)時延與距離的關(guān)系可以的到距離向量D{D1,D2,D3…},以各個探測點(diǎn)為圓心,距離為半徑作圓,重合的區(qū)域即為目標(biāo)IP的區(qū)域范圍。該方法通過犧牲精度來縮小目標(biāo)IP所在地理位置的區(qū)域,通過給出一個區(qū)域范圍,將目標(biāo)IP縮小到一定的范圍,有效地降低了定位的方差。但以上兩種方法,也存在以下不足:由于存在時延抖動,傳送路徑不確定等問題,時延測量不夠精準(zhǔn);而且定位的準(zhǔn)確性受限于探測點(diǎn)的數(shù)量,探測點(diǎn)數(shù)量越多,定位越精準(zhǔn);另外,實(shí)驗(yàn)中需要部署多個探測點(diǎn),在現(xiàn)實(shí)中部署難度比較大,可行性較差。2.2.2基于數(shù)據(jù)庫查詢的定位方法目前市面上存在的許多IP數(shù)據(jù)庫,出于商業(yè)保護(hù)等原因,供應(yīng)商并未向外透露數(shù)據(jù)庫來源以及相關(guān)的定位技術(shù),因而這些數(shù)據(jù)庫的準(zhǔn)確性有待考量。對此,DanKomosny[20],JiangH[21],Shavitti[10],Siwpersad[9]等學(xué)者通過數(shù)據(jù)抽樣驗(yàn)證的方法評估數(shù)據(jù)庫的準(zhǔn)確度,綜合得到如下結(jié)論:(1)IP數(shù)據(jù)庫在國家級粒度的定位準(zhǔn)確性最高,接近100%,在省級,市級,街道級上的準(zhǔn)確度依次遞減,也就是說粒度越高,定位準(zhǔn)確度越低;(2)不同IP數(shù)據(jù)庫中,定位信息相同的那部分IP地址在整個數(shù)據(jù)庫中定位準(zhǔn)確度更高,且對同一IP地址大部分IP數(shù)據(jù)庫定位結(jié)果是相同的;(3)基于數(shù)據(jù)庫查詢的定位準(zhǔn)確度沒有基于網(wǎng)絡(luò)測量的定位準(zhǔn)確度高。2.2.3基于數(shù)據(jù)挖掘的定位方法基于數(shù)據(jù)挖掘比較經(jīng)典的定位方法有Eriksson提出的Alearning-basedapproach

流程圖,算法,流程圖,貝葉斯


基于隨機(jī)森林的IP城市級定位方法研究10forIPgeolocation算法(簡稱LBG)[16],與CBG算法等基于網(wǎng)絡(luò)測量的算法不同,該算法是一種基于數(shù)據(jù)挖掘的IP定位模型,其用到的模型是樸素貝葉斯模型,以網(wǎng)絡(luò)測量得到的時延和跳數(shù)作為特征,訓(xùn)練得到貝葉斯分類器,進(jìn)而用于預(yù)測目標(biāo)IP的地理位置。該方法不需要研究時延和距離之間的關(guān)系,只需要提供大量準(zhǔn)確度較高的訓(xùn)練樣本數(shù)據(jù),將IP城市級定位轉(zhuǎn)換為了一個基于特征聚類進(jìn)行預(yù)測的機(jī)器學(xué)習(xí)問題。具體來說,LBG定位算法以大量探測源到地標(biāo)的時延和跳數(shù)作為訓(xùn)練數(shù)據(jù),在此基礎(chǔ)上構(gòu)建一個貝葉斯分類器,再輸入目標(biāo)IP的時延和跳數(shù)信息,對其地理位置進(jìn)行預(yù)測。其原理如下:已知城市集合C,c是IP地址所對應(yīng)的城市,其中,對目標(biāo)IP測量的特征集為F={f1,f2},其中f1表示時延,f2表示跳數(shù),若已知某個IP地址的特征集為F,則根據(jù)貝葉斯公式P(A|B)=(|)()()(2.1)該IP所在城市為c的概率為:P(c|F)=(|)()()∝(|)()(2.2)由于有大量的訓(xùn)練數(shù)據(jù)集,訓(xùn)練得到的貝葉斯分類器為:=argmax∈P(c|F)=argmax∈P(F|c)()(2.3)其中P(c)是根據(jù)人口密度計(jì)算得到,作者假設(shè)某城市的人口密度大小和目標(biāo)IP出現(xiàn)在城市c的概率是成正比。而P(F|c)可通過訓(xùn)練數(shù)據(jù)統(tǒng)計(jì)得到。算法流程圖如下所示:圖2.2LBG算法流程圖

【參考文獻(xiàn)】:
期刊論文
[1]第43次CNNIC中國互聯(lián)網(wǎng)報(bào)告發(fā)布[J].   中國廣播. 2019(04)
[2]大規(guī)模認(rèn)知無線電網(wǎng)絡(luò)的時延分析[J]. 陸佃杰,鄭向偉,張桂娟,洪爵,劉弘.  軟件學(xué)報(bào). 2014(10)
[3]基于決策樹的數(shù)據(jù)挖掘算法的應(yīng)用與研究[J]. 鄒媛.  科學(xué)技術(shù)與工程. 2010(18)

碩士論文
[1]基于網(wǎng)絡(luò)拓?fù)渚垲惖腎P城市級定位算法研究[D]. 李明月.解放軍信息工程大學(xué) 2017



本文編號:3629431

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/shoufeilunwen/xixikjs/3629431.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶6d974***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com