基于三支決策的代價敏感學習方法研究
本文關鍵詞:基于三支決策的代價敏感學習方法研究,由筆耕文化傳播整理發(fā)布。
【摘要】:數(shù)據(jù)挖掘中的一個重要模型是分類模型,傳統(tǒng)數(shù)據(jù)挖掘方法的目標是獲得一個分類精度盡可能高的分類器。但是在實際問題中,外部環(huán)境的各種不確定因素會導致決策不能順利達到預期目標,進而帶來決策風險代價,且分類模型中的誤分類代價不盡相同,存在代價敏感性。完全避免決策失誤是難以做到的,人們所期望的是使決策風險代價最小,而非期望利益最大化。追求決策知識與經驗數(shù)據(jù)的嚴格一致性容易給決策者提供錯誤的決策信息,且忽略了決策者對預期風險的規(guī)避心理,已不適用于解決實際問題。三支決策將決策視為分類問題,與數(shù)據(jù)挖掘處理的問題模型相一致,建立了決策理論與數(shù)據(jù)挖掘方法之間的橋梁,其具有的誤差容忍與代價敏感機制可以使傳統(tǒng)的數(shù)據(jù)挖掘方法在分類中對不同代價的誤分類結果具有區(qū)分性與敏感性,以做出風險損失最低的分類結果。針對一般的數(shù)據(jù)挖掘模型僅僅尋求分類器的精度,不能根據(jù)人們的期望處理現(xiàn)實中的決策問題,本文將三支決策用于傳統(tǒng)的數(shù)據(jù)挖掘方法中,構建了基于三支決策的代價敏感學習方法,使傳統(tǒng)的數(shù)據(jù)挖掘方法更好地適應具有代價敏感性的實際問題。本文主要研究內容如下:(1)針對典型的支持向量機增量學習算法對有價值的非支持向量的忽略,以及一般的支持向量機增量學習算法盡可能提升分類精度的客觀性,利用三支決策的代價敏感性和邊界域構建了一種新的支持向量機增量學習算法。該算法首先根據(jù)支持向量機的學習原理來度量三支決策中的條件概率;然后采用三支決策劃分出邊界域,并基于支持向量機對其與新增樣本、原支持向量的并集進行分類;最后,通過實驗證明,該方法不僅能夠篩選出有價值的非支持向量進而提高分類的精確性,而且使支持向量機增量學習方法更適合于具有代價敏感性的實際問題,并使三支決策中條件概率的構建方式更切合于具體學習環(huán)境。(2)針對現(xiàn)有的涉及k近鄰的top-n離群點檢測算法通常依賴于參數(shù)k,n,但用戶卻很難確定合適的參數(shù)值,基于三支決策的三支語義提出了一種基于三支決策的代價敏感離群點檢測方法。該方法首先采用k近鄰來度量三支決策的條件概率;其次,構建使決策代價最小的最優(yōu)化問題來自適應地尋找最優(yōu)條件概率;然后,采用三支決策遞歸地劃分離群點;最后,通過實驗證明,該方法不僅使條件概率的度量方法適用于離群點檢測問題,而且可以在不需要用戶參與的前提下自動地檢測離群點。(3)針對傳統(tǒng)數(shù)據(jù)挖掘方法對不一致數(shù)據(jù)的忽視,以及一般的決策樹算法對不一致結點的處理缺乏理論支撐的缺陷,根據(jù)三支決策的代價敏感性和邊界域構建了一種新的決策樹分類方法。該方法首先采用決策樹結點的正例比例來度量三支決策中的條件概率,進而三支劃分決策樹中的結點,生成三支決策樹;然后提出三支決策樹合并剪枝規(guī)則,使之成為二支決策樹;最后,通過實驗證明,該方法保留了數(shù)據(jù)中的不一致信息,從最小化整體風險的角度來劃分不一致結點,不僅生成了具有代價敏感性的決策樹,而且使決策樹中不一致結點的判別更具可解釋性,并使三支決策條件概率的度量方法適用于決策樹學習問題。
【關鍵詞】:三支決策 數(shù)據(jù)挖掘 代價敏感學習 決策風險最小化
【學位授予單位】:河南師范大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP18;TP311.13
【目錄】:
- 摘要4-6
- ABSTRACT6-10
- 第一章 緒論10-16
- 1.1 研究背景及意義10-11
- 1.2 三支決策理論及其研究現(xiàn)狀11-12
- 1.3 數(shù)據(jù)挖掘代價敏感學習國內外研究現(xiàn)狀12-13
- 1.4 論文研究內容與結構安排13-16
- 1.4.1 主要研究內容13-14
- 1.4.2 結構安排14-16
- 第二章 三支決策、數(shù)據(jù)挖掘基礎知識16-26
- 2.1 決策粗糙集理論16-22
- 2.1.1 Pawlak代數(shù)粗糙集模型16-17
- 2.1.2 基于最小風險的Bayes決策17-19
- 2.1.3 決策粗糙集模型19-22
- 2.2 基于決策粗糙集的三支決策語義22-23
- 2.3 數(shù)據(jù)挖掘相關理論23-25
- 2.3.1 支持向量機增量學習23-24
- 2.3.2 ID3決策樹學習算法24-25
- 2.3.3 離群點檢測方法25
- 2.4 本章小結25-26
- 第三章 基于三支決策的代價敏感支持向量機增量學習方法26-36
- 3.1 引言26
- 3.2 基于支持向量機的三支決策條件概率的構建26-29
- 3.2.1 SVM線性模式下的三支決策條件概率構建27
- 3.2.2 SVM非線性可分模式下的三支決策條件概率構建27-29
- 3.3 基于三支決策的支持向量機邊界向量構建29-30
- 3.4 基于三支決策的代價敏感支持向量機增量學習算法30-31
- 3.4.1 算法30-31
- 3.4.2 算法時間復雜度分析31
- 3.5 實驗分析31-34
- 3.6 本章小結34-36
- 第四章 基于三支決策的代價敏感離群點檢測方法36-52
- 4.1 引言36-38
- 4.2 基于離群點檢測的三支決策條件概率的構建38-39
- 4.3 最優(yōu)條件概率的計算39-42
- 4.4 基于三支決策的代價敏感離群點檢測算法42-44
- 4.5 實驗分析44-50
- 4.6 本章小結50-52
- 第五章 基于三支決策的代價敏感決策樹學習方法52-62
- 5.1 引言52-53
- 5.2 代價敏感三支決策樹的構建53-55
- 5.2.1 決策樹結點的三支決策條件概率構建54
- 5.2.2 代價敏感三支決策樹構建算法54-55
- 5.3 代價敏感三支決策樹合并剪枝算法55-56
- 5.4 實驗分析56-60
- 5.5 本章小結60-62
- 第六章 結論62-64
- 6.1 工作總結62-63
- 6.2 今后研究構想63-64
- 參考文獻64-69
- 致謝69-70
- 攻讀學位期間的科研成果70-71
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 薛安榮;姚林;鞠時光;陳偉鶴;馬漢達;;離群點挖掘方法綜述[J];計算機科學;2008年11期
2 李存華;;l_∞度量意義下的離群點檢測[J];淮海工學院學報(自然科學版);2008年02期
3 李昕;顏學峰;;融合離群點判別的穩(wěn)態(tài)檢測方法及其應用[J];華東理工大學學報(自然科學版);2009年01期
4 封海岳;薛安榮;;基于重疊模塊度的社區(qū)離群點檢測[J];計算機應用與軟件;2013年05期
5 王柏鈞,王力勤;《穩(wěn)健回歸與離群點檢測》介紹[J];成都氣象學院學報;1989年04期
6 黃添強;秦小麟;葉飛躍;;基于方形鄰域的離群點查找新方法[J];控制與決策;2006年05期
7 熊君麗;;高維空間下基于密度的離群點探測算法實現(xiàn)[J];現(xiàn)代電子技術;2006年15期
8 黃添強;秦小麟;王欽敏;;空間離群點的模型與跳躍取樣查找算法[J];中國圖象圖形學報;2006年09期
9 陳光平;葉東毅;;一種改進的離群點檢測方法[J];福州大學學報(自然科學版);2007年03期
10 薛安榮;鞠時光;;基于空間約束的離群點挖掘[J];計算機科學;2007年06期
中國重要會議論文全文數(shù)據(jù)庫 前9條
1 張鋒;常會友;;茫然第三方支持的隱私保持離群點探測協(xié)議[A];第二十四屆中國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2007年
2 連鳳娜;吳錦林;薛永生;;一種改進的基于距離的離群挖掘算法[A];第二十四屆中國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2007年
3 梁雪琴;劉紅生;代秀梅;周亞芬;;聚類離群點挖掘技術在內部審計信息化中的應用——一個來自商業(yè)銀行信用卡審計的實例[A];全國內部審計理論研討優(yōu)秀論文集(2013)[C];2014年
4 于浩;王斌;肖剛;楊曉春;;基于距離的不確定離群點檢測[A];第26屆中國數(shù)據(jù)庫學術會議論文集(A輯)[C];2009年
5 許龍飛;熊君麗;段敏;;基于粗糙集的高維空間離群點發(fā)現(xiàn)算法研究[A];第二十屆全國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2003年
6 劉文遠;李振平;王寶文;裴繼輝;;一種多維數(shù)據(jù)的離群點檢測算法[A];2007年全國第十一屆企業(yè)信息化與工業(yè)工程學術會議論文集[C];2007年
7 魏藜;錢衛(wèi)寧;周傲英;;HOT:尋找高維空間中的離群點[A];第十八屆全國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2001年
8 周紅福;錢衛(wèi)寧;魏藜;周傲英;;EDOLOIS:高效準確的子空間局部離群點發(fā)現(xiàn)[A];第二十屆全國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2003年
9 魏藜;錢衛(wèi)寧;周傲英;;SLOT:基于估計的高效子空間局部離群點發(fā)現(xiàn)[A];第十九屆全國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2002年
中國博士學位論文全文數(shù)據(jù)庫 前10條
1 Chitrakar Roshan;[D];武漢大學;2015年
2 劉莘;基于時空分析的CCS泄漏預警關鍵技術研究[D];中國礦業(yè)大學;2016年
3 楊鵬;離群檢測及其優(yōu)化算法研究[D];重慶大學;2010年
4 林海;離群檢測及離群釋義空間查找算法研究[D];重慶大學;2012年
5 薛安榮;空間離群點挖掘技術的研究[D];江蘇大學;2008年
6 楊茂林;離群檢測算法研究[D];華中科技大學;2012年
7 金義富;高維稀疏離群數(shù)據(jù)集延伸知識發(fā)現(xiàn)研究[D];重慶大學;2007年
8 雷大江;離群檢測與離群釋義算法研究[D];重慶大學;2012年
9 萬家強;基于連通性的離群檢測與聚類研究[D];重慶大學;2014年
10 唐向紅;數(shù)據(jù)流離群點檢測研究[D];華中科技大學;2010年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 韓紅霞;基于距離離群點的分析與研究[D];江蘇大學;2007年
2 黃馨玉;基于鄰域重心變化的離群點檢測算法研究[D];遼寧大學;2015年
3 程百球;基于EP模式的離群點發(fā)現(xiàn)[D];安慶師范學院;2015年
4 秦浩;基于密度的局部離群點挖掘及在入侵檢測中應用研究[D];大連海事大學;2016年
5 王春鵬;基于離群點檢測的在線軟測量方法研究[D];中國石油大學(華東);2014年
6 張友強;基于選擇性集成學習的離群點檢測研究[D];青島科技大學;2016年
7 王美晶;基于PSO算法的離群點檢測方法研究[D];福州大學;2013年
8 關皓文;基于離群點檢測方法的醫(yī)保異常發(fā)現(xiàn)[D];山東大學;2016年
9 朱杰;基于帶時間約束頻繁路徑的離群軌跡檢測[D];蘇州大學;2016年
10 馬菲;局部離群點檢測算法的研究[D];淮北師范大學;2016年
本文關鍵詞:基于三支決策的代價敏感學習方法研究,,由筆耕文化傳播整理發(fā)布。
本文編號:411863
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/411863.html