高效且支持多查詢的離群點檢測方法研究
發(fā)布時間:2023-02-09 14:35
隨著互聯網技術的進步,數據挖掘這一學術領域正在日益發(fā)展,離群點檢測作為其重要組成部分之一,目的是找出異常的數據信息。迄今為止,離群點檢測的相關技術已經在網絡安全、社會分析等諸多領域中被應用。在離群點檢測系統中,隨著上層業(yè)務的不斷拓展,系統在同一時間段內所接收到的查詢請求不斷增多,而處理的時效性要求也不斷提高,這也對離群點檢測算法的性能提出更高的要求。而現有的離群點檢測算法絕大多數都是面向單個查詢,這使得系統在短時間內處理大量查詢請求時的性能不佳,降低了用戶的使用體驗感。因此,本文主要針對離群點檢測的多查詢問題展開了相關研究,主要貢獻點如下:(1)提出了一種面向單查詢的高效離群點檢測算法——RODASQ(R-tree Outlier Detection Algorithm-Single Query)。首先,該算法對傳統的空間索引R樹進行擴展,即為R樹中的每個結點添加了密度屬性,并提出了一種估算數據點離群度的新型方法。然后將離群點在空間中的存在特性與擴展后的R樹索引相結合,通過從R樹中選出較小密度的結點,并優(yōu)先計算該結點內離群度較大的數據點,能夠快速地在初始時確定一個...
【文章頁數】:64 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景與研究意義
1.2 相關研究工作
1.2.1 面向單查詢的離群點檢測
1.2.2 面向多查詢的離群點檢測
1.3 主要貢獻
1.4 論文各章節(jié)安排
2 相關理論及技術介紹
2.1 基于距離的離群點相關定義
2.2 基于距離的離群點檢測相關算法
2.2.1 基于嵌套循環(huán)的離群點檢測算法
2.2.2 基于索引的離群點檢測算法
2.2.3 基于單元的離群點檢測算法
2.3 閾值
2.4 本章小結
3 面向單查詢的離群點檢測算法
3.1 基于R樹的基準處理框架
3.2 面向單查詢的離群點檢測算法描述
3.2.1 R樹的擴展
3.2.2 結點選擇方法
3.2.3 數據點選擇方法
3.2.4 面向單查詢的算法描述
3.3 本章小結
4 面向多查詢的離群點檢測算法
4.1 面向多查詢的離群點檢測算法描述
4.1.1 查詢任務分組
4.1.2 組內多離群點檢測的算法描述
4.2 本章小結
5 實驗對比分析
5.1 實驗方法及環(huán)境
5.2 真實數據集中的實驗結果
5.3 人工合成數據集中的實驗結果
5.3.1 面向單查詢的算法性能對比
5.3.2 面向多查詢的算法性能對比
5.4 本章小結
結論
參考文獻
致謝
作者簡歷及攻讀碩士學位期間的科研成果
本文編號:3738899
【文章頁數】:64 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景與研究意義
1.2 相關研究工作
1.2.1 面向單查詢的離群點檢測
1.2.2 面向多查詢的離群點檢測
1.3 主要貢獻
1.4 論文各章節(jié)安排
2 相關理論及技術介紹
2.1 基于距離的離群點相關定義
2.2 基于距離的離群點檢測相關算法
2.2.1 基于嵌套循環(huán)的離群點檢測算法
2.2.2 基于索引的離群點檢測算法
2.2.3 基于單元的離群點檢測算法
2.3 閾值
2.4 本章小結
3 面向單查詢的離群點檢測算法
3.1 基于R樹的基準處理框架
3.2 面向單查詢的離群點檢測算法描述
3.2.1 R樹的擴展
3.2.2 結點選擇方法
3.2.3 數據點選擇方法
3.2.4 面向單查詢的算法描述
3.3 本章小結
4 面向多查詢的離群點檢測算法
4.1 面向多查詢的離群點檢測算法描述
4.1.1 查詢任務分組
4.1.2 組內多離群點檢測的算法描述
4.2 本章小結
5 實驗對比分析
5.1 實驗方法及環(huán)境
5.2 真實數據集中的實驗結果
5.3 人工合成數據集中的實驗結果
5.3.1 面向單查詢的算法性能對比
5.3.2 面向多查詢的算法性能對比
5.4 本章小結
結論
參考文獻
致謝
作者簡歷及攻讀碩士學位期間的科研成果
本文編號:3738899
本文鏈接:http://www.sikaile.net/shoufeilunwen/xixikjs/3738899.html
最近更新
教材專著