基于Hive的海量公交客流起訖點挖掘方法
發(fā)布時間:2023-02-19 15:03
目前起訖點(origin-destination,OD)挖掘方法普遍存在無法并行分析多條線路、低效率、預測率不足的問題?紤]到Hive在海量數(shù)據(jù)上的查詢性能優(yōu)勢,基于Hive實現(xiàn)了OD挖掘,克服了上述問題;跁r間閾值匹配上車站點,失配記錄基于站點上客數(shù)再次匹配;诒磉B接的出行鏈算法預測下車站點,預測失敗的記錄基于概率進行兩次預測。以石家莊2018年1月1日—2018年3月27日的IC卡刷卡數(shù)據(jù)和調(diào)度數(shù)據(jù)進行OD挖掘,在清洗后的11 312 505條出行記錄中挖掘出11 270 037條OD記錄,預測率達到99.6%,出行與吸引校驗質(zhì)量較高,Hive并行調(diào)優(yōu)開啟后耗時17 829.04 s。可見該方法滿足生產(chǎn)環(huán)境中離線挖掘OD的業(yè)務需求。
【文章頁數(shù)】:10 頁
【文章目錄】:
1 相關研究
2 數(shù)據(jù)源
3 上車站點匹配
3.1 基于時間閾值的上車站點匹配
3.2 基于站點上客數(shù)的上車站點匹配
4 下車站點預測
4.1 出行鏈算法
4.2 基于表連接的出行鏈算法
4.2.1 構造出行規(guī)律
4.2.2 計算距離關系表
4.2.3 下車站點預測
4.3 基于概率的下車站點預測
5 實驗及結果分析
5.1 數(shù)據(jù)清洗
5.2 基于Hive的OD挖掘
5.2.1 代理鍵
5.2.2 輪盤賭策略
5.2.3 時間不等關系轉換為相等關系
5.2.4 Hive調(diào)優(yōu)
5.3 OD挖掘及結果分析
5.4 與其他方法的比較
6 結論
本文編號:3746441
【文章頁數(shù)】:10 頁
【文章目錄】:
1 相關研究
2 數(shù)據(jù)源
3 上車站點匹配
3.1 基于時間閾值的上車站點匹配
3.2 基于站點上客數(shù)的上車站點匹配
4 下車站點預測
4.1 出行鏈算法
4.2 基于表連接的出行鏈算法
4.2.1 構造出行規(guī)律
4.2.2 計算距離關系表
4.2.3 下車站點預測
4.3 基于概率的下車站點預測
5 實驗及結果分析
5.1 數(shù)據(jù)清洗
5.2 基于Hive的OD挖掘
5.2.1 代理鍵
5.2.2 輪盤賭策略
5.2.3 時間不等關系轉換為相等關系
5.2.4 Hive調(diào)優(yōu)
5.3 OD挖掘及結果分析
5.4 與其他方法的比較
6 結論
本文編號:3746441
本文鏈接:http://www.sikaile.net/kejilunwen/jiaotonggongchenglunwen/3746441.html