航空訂票服務(wù)器爬蟲檢測技術(shù)研究
發(fā)布時(shí)間:2021-03-19 18:01
網(wǎng)絡(luò)爬蟲是一種自動化瀏覽網(wǎng)頁和抓取網(wǎng)頁數(shù)據(jù)的程序,是多種網(wǎng)絡(luò)應(yīng)用的關(guān)鍵技術(shù),如搜索引擎依賴于爬蟲獲取網(wǎng)頁中的信息。但隨著網(wǎng)絡(luò)爬蟲技術(shù)的發(fā)展,一些惡意爬蟲對電子商務(wù)造成了不可忽視的損失,它們占據(jù)網(wǎng)絡(luò)帶寬,觸碰用戶隱私,竊取商業(yè)信息等。在航空訂票系統(tǒng)網(wǎng)絡(luò)爬蟲的危害更甚,因此本文設(shè)計(jì)了一套針對航空查訂票系統(tǒng)的反爬蟲可視交互系統(tǒng),協(xié)助用戶通過分析大規(guī)模且動態(tài)變化的IP日志數(shù)據(jù)來檢測爬蟲。本文系統(tǒng)采用反爬蟲模型離線計(jì)算,爬蟲實(shí)時(shí)在線檢測的運(yùn)行方式。使用歷史日志數(shù)據(jù)建立反爬蟲模型,再利用此模型對實(shí)時(shí)的訪問日志進(jìn)行分析,判斷當(dāng)前的訪問是否為爬蟲。同時(shí)可以定期進(jìn)行離線模型的再學(xué)習(xí)和更新,以適應(yīng)新型爬蟲。本系統(tǒng)利用Redis緩存技術(shù)處理航空票務(wù)網(wǎng)站等其他電商平臺的高并發(fā)請求來保證實(shí)時(shí)爬蟲檢測響應(yīng)。本文設(shè)計(jì)的可視化界面提供了航線圖、柱狀圖、餅圖等多種可視化手段,方便用戶隨時(shí)查看歷史和實(shí)時(shí)的查訂票狀況和爬蟲檢測效果。同時(shí)以IP地址聚合和查詢量排序模塊協(xié)助用戶分析和識別動態(tài)IP爬蟲,以特征篩選、IP歷史詳情查詢等可視化模塊支持用戶手工篩選訓(xùn)練樣本來更新SVM分類模型。本文創(chuàng)新點(diǎn)有:開發(fā)了E-build服務(wù)器端...
【文章來源】:杭州電子科技大學(xué)浙江省
【文章頁數(shù)】:58 頁
【學(xué)位級別】:碩士
【部分圖文】:
015第1季度至2016第4季度中國在線機(jī)票預(yù)訂交易規(guī)模,數(shù)據(jù)來源:https://www.analysys.cn/analysis/trade/detail/1000555/
ild 是中國航信為航空公司提供的電子商務(wù)統(tǒng)一接入和應(yīng)用開發(fā)平的接入層為航空公司提供多種方式的電子商務(wù)應(yīng)用服務(wù),包括了航旅客訂座記錄等。E-Build 積累了大量的代理訂票歷史數(shù)據(jù),即 IP據(jù),并可以對代理訂票行為進(jìn)行實(shí)時(shí)數(shù)據(jù)監(jiān)控。在 E-Build 服務(wù)器監(jiān)控與檢測,通過歷史數(shù)據(jù)與實(shí)時(shí)數(shù)據(jù)結(jié)合分析,開發(fā)設(shè)計(jì)反爬蟲和研究價(jià)值?展揪W(wǎng)站如需提取航班時(shí)刻、座位信息和票價(jià)詳情,其每次查詢航信 E-Build 服務(wù)器發(fā)起請求,并向中航信支付相應(yīng)流量費(fèi)。許多了免費(fèi)獲取低價(jià)機(jī)票數(shù)據(jù)與航班信息,通過大量爬蟲訪問航空公司據(jù),從而導(dǎo)致航空公司訪問 E-Build 服務(wù)器的流量費(fèi)劇增。根據(jù)航全統(tǒng)計(jì),即使在航空機(jī)票銷售的淡季,虛假流量也占據(jù)航空網(wǎng)站實(shí),高峰期更是高達(dá) 90%以上,而這些爬蟲只消耗流量卻不產(chǎn)生任也有些航空公司在自己網(wǎng)站上布置了反爬蟲系統(tǒng),但各自為政,開爬蟲效果一般。本文希望開發(fā)一個(gè)在 E-build 端的通用爬蟲檢測系的航空公司反爬蟲需要,如圖 1.2 所示。
圖為用戶相同會話中的查詢時(shí)間間隔與查詢量的關(guān)系,下圖為用時(shí)間間隔與查詢量關(guān)系器學(xué)習(xí)方法,使用機(jī)器學(xué)習(xí)模型來判斷訪問是否來自爬網(wǎng)絡(luò)[12-13],貝葉斯分類器[14-15],決策樹[16-17],SVM[18-19],。D Stevanovic[13]等研究了兩種無監(jiān)督神經(jīng)網(wǎng)絡(luò)用于網(wǎng)映射 SOM 與改進(jìn)的自適應(yīng)共振理論 ATR2,旨在根據(jù)用網(wǎng)絡(luò)訪問者的類型與分布情況,以及調(diào)查惡意爬蟲與用戶把數(shù)據(jù)集的聚類結(jié)果映射到 SOM 輸出層上,幫助用戶了規(guī)模、空間鄰近度和數(shù)據(jù)集最主要的集群,如圖 1.4。S葉斯方法的兩個(gè)變種:弱貝葉斯方法(WBA)與強(qiáng)貝葉斯絡(luò)機(jī)器人會話集合去訓(xùn)練分類模型用于網(wǎng)絡(luò)爬蟲檢測。對實(shí)時(shí)的會話請求進(jìn)行分類,使用該方法來區(qū)分人類與通過有監(jiān)督機(jī)器學(xué)習(xí)來識別和檢測垃圾郵件網(wǎng)絡(luò)爬蟲,述垃圾郵件爬蟲與人類用戶的不同行為特征。Lu[20]等使
【參考文獻(xiàn)】:
期刊論文
[1]EasySVM: A visual analysis approach for open-box support vector machines[J]. Yuxin Ma,Wei Chen,Xiaohong Ma,Jiayi Xu,Xinxin Huang,Ross Maciejewski,Anthony K.H.Tung. Computational Visual Media. 2017(02)
本文編號:3089984
【文章來源】:杭州電子科技大學(xué)浙江省
【文章頁數(shù)】:58 頁
【學(xué)位級別】:碩士
【部分圖文】:
015第1季度至2016第4季度中國在線機(jī)票預(yù)訂交易規(guī)模,數(shù)據(jù)來源:https://www.analysys.cn/analysis/trade/detail/1000555/
ild 是中國航信為航空公司提供的電子商務(wù)統(tǒng)一接入和應(yīng)用開發(fā)平的接入層為航空公司提供多種方式的電子商務(wù)應(yīng)用服務(wù),包括了航旅客訂座記錄等。E-Build 積累了大量的代理訂票歷史數(shù)據(jù),即 IP據(jù),并可以對代理訂票行為進(jìn)行實(shí)時(shí)數(shù)據(jù)監(jiān)控。在 E-Build 服務(wù)器監(jiān)控與檢測,通過歷史數(shù)據(jù)與實(shí)時(shí)數(shù)據(jù)結(jié)合分析,開發(fā)設(shè)計(jì)反爬蟲和研究價(jià)值?展揪W(wǎng)站如需提取航班時(shí)刻、座位信息和票價(jià)詳情,其每次查詢航信 E-Build 服務(wù)器發(fā)起請求,并向中航信支付相應(yīng)流量費(fèi)。許多了免費(fèi)獲取低價(jià)機(jī)票數(shù)據(jù)與航班信息,通過大量爬蟲訪問航空公司據(jù),從而導(dǎo)致航空公司訪問 E-Build 服務(wù)器的流量費(fèi)劇增。根據(jù)航全統(tǒng)計(jì),即使在航空機(jī)票銷售的淡季,虛假流量也占據(jù)航空網(wǎng)站實(shí),高峰期更是高達(dá) 90%以上,而這些爬蟲只消耗流量卻不產(chǎn)生任也有些航空公司在自己網(wǎng)站上布置了反爬蟲系統(tǒng),但各自為政,開爬蟲效果一般。本文希望開發(fā)一個(gè)在 E-build 端的通用爬蟲檢測系的航空公司反爬蟲需要,如圖 1.2 所示。
圖為用戶相同會話中的查詢時(shí)間間隔與查詢量的關(guān)系,下圖為用時(shí)間間隔與查詢量關(guān)系器學(xué)習(xí)方法,使用機(jī)器學(xué)習(xí)模型來判斷訪問是否來自爬網(wǎng)絡(luò)[12-13],貝葉斯分類器[14-15],決策樹[16-17],SVM[18-19],。D Stevanovic[13]等研究了兩種無監(jiān)督神經(jīng)網(wǎng)絡(luò)用于網(wǎng)映射 SOM 與改進(jìn)的自適應(yīng)共振理論 ATR2,旨在根據(jù)用網(wǎng)絡(luò)訪問者的類型與分布情況,以及調(diào)查惡意爬蟲與用戶把數(shù)據(jù)集的聚類結(jié)果映射到 SOM 輸出層上,幫助用戶了規(guī)模、空間鄰近度和數(shù)據(jù)集最主要的集群,如圖 1.4。S葉斯方法的兩個(gè)變種:弱貝葉斯方法(WBA)與強(qiáng)貝葉斯絡(luò)機(jī)器人會話集合去訓(xùn)練分類模型用于網(wǎng)絡(luò)爬蟲檢測。對實(shí)時(shí)的會話請求進(jìn)行分類,使用該方法來區(qū)分人類與通過有監(jiān)督機(jī)器學(xué)習(xí)來識別和檢測垃圾郵件網(wǎng)絡(luò)爬蟲,述垃圾郵件爬蟲與人類用戶的不同行為特征。Lu[20]等使
【參考文獻(xiàn)】:
期刊論文
[1]EasySVM: A visual analysis approach for open-box support vector machines[J]. Yuxin Ma,Wei Chen,Xiaohong Ma,Jiayi Xu,Xinxin Huang,Ross Maciejewski,Anthony K.H.Tung. Computational Visual Media. 2017(02)
本文編號:3089984
本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/3089984.html
最近更新
教材專著