分類規(guī)則挖掘在金融中的應(yīng)用
本文關(guān)鍵詞:分類規(guī)則挖掘在金融中的應(yīng)用,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著金融業(yè)務(wù)的發(fā)展,業(yè)務(wù)變化越來越頻繁,僅依賴業(yè)務(wù)專家總結(jié)業(yè)務(wù)規(guī)則的速度已經(jīng)難以跟上業(yè)務(wù)變化的速度,采用數(shù)據(jù)挖掘的方法輔助業(yè)務(wù)規(guī)則快速發(fā)現(xiàn)和驗證具有重要的實際應(yīng)用價值。本文以一個大型銀行對賬系統(tǒng)的規(guī)則挖掘為背景,系統(tǒng)研究了分類規(guī)則挖掘的方法,提出了分類規(guī)則挖掘的方案。首先,本文介紹了本項目的背景和需求,闡述了將金融規(guī)則挖掘轉(zhuǎn)換為分類規(guī)則挖掘的過程。介紹了金融規(guī)則挖掘中數(shù)據(jù)平衡和非平衡,有分類標簽和無分類標簽四種場景。然后,本文研究了基于決策樹的分類規(guī)則挖掘方法。針對有分類標簽的非平衡數(shù)據(jù)集,本文提出了基于KNN的樣本選擇與決策樹算法相結(jié)合的分類規(guī)則挖掘方法。該方法通過找到與分類最相關(guān)的正樣本,有針對性地對正樣本采樣,達到數(shù)據(jù)平衡化的效果。通過實驗對比證明對非平衡數(shù)據(jù)集,該方法比一般的決策樹算法提煉出的分類規(guī)則更簡潔,更符合真實情況。最后,論文針對無分類標簽的平衡數(shù)據(jù)集和非平衡數(shù)據(jù)集,分別提出了基于聚類的分類規(guī)則挖掘方法和基于LOF算法的分類規(guī)則挖掘方法,通過人-機協(xié)作的多迭代過程,使得在取得較高規(guī)則準確度的前提下,大大減少人工標注數(shù)據(jù)的工作量。通過實驗對比證明對平衡數(shù)據(jù)集,基于聚類的分類規(guī)則挖掘方法收斂速度更快,在保證規(guī)則準確度的前提下標注的數(shù)據(jù)更少;對非平衡數(shù)據(jù)集,基于LOF算法的分類規(guī)則挖掘方法收斂速度更快,在保證規(guī)則準確度的前提下標注的數(shù)據(jù)更少。
【關(guān)鍵詞】:分類規(guī)則挖掘 決策樹 聚類 LOF 離群點檢測
【學(xué)位授予單位】:浙江大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP311.13
【目錄】:
- 摘要4-5
- Abstract5-12
- 第1章 緒論12-16
- 1.1 研究背景及意義12-13
- 1.2 規(guī)則挖掘的研究現(xiàn)狀13-14
- 1.3 本文主要內(nèi)容14
- 1.4 論文組織結(jié)構(gòu)14-16
- 第2章 規(guī)則挖掘綜述16-28
- 2.1 規(guī)則挖掘的方法16-23
- 2.1.1 關(guān)聯(lián)規(guī)則挖掘算法16-18
- 2.1.2 分類規(guī)則挖掘算法18-23
- 2.1.2.1 決策樹算法18-20
- 2.1.2.2 貝葉斯分類20-22
- 2.1.2.3 神經(jīng)網(wǎng)絡(luò)22-23
- 2.2 規(guī)則挖掘相關(guān)技術(shù)23-27
- 2.2.1 離群點檢測技術(shù)23-26
- 2.2.2 數(shù)據(jù)預(yù)處理技術(shù)26
- 2.2.3 降維技術(shù)26-27
- 2.3 本章小結(jié)27-28
- 第3章 金融對賬問題的定義與轉(zhuǎn)換28-40
- 3.1 項目背景和需求28-30
- 3.2 問題的轉(zhuǎn)換30-32
- 3.3 數(shù)據(jù)預(yù)處理32-34
- 3.3.1 數(shù)據(jù)清洗32
- 3.3.2 數(shù)據(jù)集成32-33
- 3.3.3 數(shù)據(jù)轉(zhuǎn)換33-34
- 3.4 特征選擇34-37
- 3.4.1 遺傳算法34-36
- 3.4.2 人機交互的迭代方式36-37
- 3.5 距離定義37-38
- 3.6 金融規(guī)則挖掘的不同場景38-39
- 3.7 本章小結(jié)39-40
- 第4章 監(jiān)督的分類規(guī)則挖掘40-63
- 4.1 基于決策樹的規(guī)則挖掘40-44
- 4.1.1 決策樹的構(gòu)建步驟40-43
- 4.1.2 優(yōu)缺點分析43-44
- 4.2 非平衡數(shù)據(jù)集的規(guī)則挖掘44-50
- 4.2.1 數(shù)據(jù)非平衡對規(guī)則挖掘的影響44-45
- 4.2.2 非平衡問題的解決方法45-46
- 4.2.3 基于KNN的樣本選擇46-48
- 4.2.4 非平衡數(shù)據(jù)規(guī)則挖掘系統(tǒng)方案48-50
- 4.3 結(jié)果的評價指標50-51
- 4.4 實驗設(shè)計51-62
- 4.4.1 實驗數(shù)據(jù)來源51-53
- 4.4.2 非平衡數(shù)據(jù)集對比實驗53-58
- 4.4.2.1 一般的決策樹算法53-54
- 4.4.2.2 隨機欠采樣方法54-55
- 4.4.2.3 隨機過采樣方法55-56
- 4.4.2.4 基于KNN的樣本選擇方法56-57
- 4.4.2.5 實驗對比57-58
- 4.4.3 平衡數(shù)據(jù)集對比實驗58-61
- 4.4.3.1 一般的決策樹算法58-59
- 4.4.3.2 基于KNN的樣本選擇方法59-61
- 4.4.4 實驗總結(jié)61-62
- 4.5 本章小結(jié)62-63
- 第5章 非監(jiān)督的分類規(guī)則挖掘63-86
- 5.1 基于聚類的規(guī)則挖掘63-68
- 5.1.1 基于聚類的規(guī)則挖掘介紹63-64
- 5.1.2 K-Modes算法介紹64-66
- 5.1.3 基于聚類的規(guī)則挖掘整體框架66-67
- 5.1.4 優(yōu)缺點分析67-68
- 5.2 基于LOF算法的規(guī)則挖掘68-77
- 5.2.1 LOF算法介紹68-71
- 5.2.2 結(jié)果的評價標準71-72
- 5.2.3 改進的LOF算法72-74
- 5.2.4 基于LOF算法的規(guī)則挖掘整體框架74-76
- 5.2.5 優(yōu)缺點分析76-77
- 5.3 實驗設(shè)計77-84
- 5.3.1 LOF算法實驗結(jié)果77-79
- 5.3.2 非平衡數(shù)據(jù)集對比實驗79-81
- 5.3.3 平衡數(shù)據(jù)集對比實驗81-84
- 5.3.4 實驗總結(jié)84
- 5.4 本章小結(jié)84-86
- 第6章 總結(jié)與展望86-88
- 6.1 論文總結(jié)86
- 6.2 對未來研究的展望86-88
- 參考文獻88-90
- 攻讀碩士學(xué)位期間主要的研究成果90-91
- 致謝91
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 蔡虹;葉水生;張永;;一種基于粗糙-模糊集理論的分類規(guī)則挖掘方法[J];計算機工程與應(yīng)用;2006年02期
2 賈彥平;付立東;;基于蟻群算法的分類規(guī)則問題[J];電子技術(shù);2008年09期
3 冀英偉;楊海峰;張繼福;;一種基于謂詞邏輯的分類規(guī)則約簡方法[J];太原科技大學(xué)學(xué)報;2010年01期
4 劉復(fù)巖,呂韶義;發(fā)現(xiàn)分類規(guī)則知識的一種算法[J];計算機工程與應(yīng)用;2002年13期
5 龍際珍;趙歡;;基于一種混合算法的分類規(guī)則挖掘[J];湘潭大學(xué)自然科學(xué)學(xué)報;2006年01期
6 彭慧伶;劉發(fā)升;;關(guān)聯(lián)規(guī)則挖掘與分類規(guī)則挖掘的區(qū)別和聯(lián)系[J];電子工程師;2006年07期
7 彭慧伶;劉發(fā)升;;關(guān)聯(lián)規(guī)則挖掘與分類規(guī)則挖掘的比較研究[J];計算機與現(xiàn)代化;2006年07期
8 彭慧伶;劉發(fā)升;李玉鵬;;一種基于關(guān)聯(lián)規(guī)則挖掘的分類規(guī)則挖掘算法[J];微計算機信息;2006年33期
9 胡學(xué)鋼;陳慧;張玉紅;馬馮;;基于分布式概念格的分類規(guī)則挖掘[J];合肥工業(yè)大學(xué)學(xué)報(自然科學(xué)版);2007年02期
10 葛斌;孟祥瑞;;內(nèi)涵縮減與分類規(guī)則求解[J];科技導(dǎo)報;2009年15期
中國重要會議論文全文數(shù)據(jù)庫 前5條
1 張玉紅;胡學(xué)鋼;劉曉平;;基于分類子格融合的概念格分布式分類方法[A];2007年全國開放式分布與并行計算機學(xué)術(shù)會議論文集(上冊)[C];2007年
2 趙傳申;楊明;孫志揮;;基于概念格的分布多庫規(guī)則發(fā)現(xiàn)[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2004年
3 王奇珍;湯志鋼;胡學(xué)鋼;簡宋全;;基于相對約簡格的分類規(guī)則挖掘[A];全國第十四屆計算機科學(xué)及其在儀器儀表中的應(yīng)用學(xué)術(shù)交流會論文集[C];2001年
4 頓毅杰;張小峰;張永;;基于不可分辨關(guān)系的分類規(guī)則算法[A];第二十二屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2005年
5 胡立華;張繼福;張素蘭;;基于概念格的分類規(guī)則提取算法及其應(yīng)用[A];計算機技術(shù)與應(yīng)用進展——全國第17屆計算機科學(xué)與技術(shù)應(yīng)用(CACIS)學(xué)術(shù)會議論文集(上冊)[C];2006年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 余遠;基于形式概念分析分類規(guī)則挖掘的關(guān)鍵問題研究[D];中國礦業(yè)大學(xué)(北京);2009年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 陳超;工業(yè)用泵的狀態(tài)監(jiān)測與故障診斷方法研究[D];華北電力大學(xué);2015年
2 吳旖雯;分類規(guī)則挖掘在金融中的應(yīng)用[D];浙江大學(xué);2016年
3 楊海峰;粗糙概念格及分類規(guī)則挖掘方法研究[D];太原科技大學(xué);2007年
4 宛敏田;基于概念格的分類規(guī)則提取研究[D];合肥工業(yè)大學(xué);2003年
5 冀英偉;基于謂詞邏輯和包含集的分類規(guī)則約簡算法[D];太原科技大學(xué);2009年
6 唐競勝;基于形式概念分析的類無冗余關(guān)聯(lián)分類規(guī)則提取研究[D];中央民族大學(xué);2011年
7 張磊;基于混合遺傳算法的分類規(guī)則挖掘方法及其并行實現(xiàn)[D];重慶大學(xué);2004年
8 王志春;基于進化算法的分類規(guī)則挖掘研究[D];天津大學(xué);2010年
9 趙雷;基于遺傳算法的分類規(guī)則挖掘研究[D];福州大學(xué);2004年
10 陳慧;基于概念格的多數(shù)據(jù)源中分類規(guī)則挖掘研究[D];合肥工業(yè)大學(xué);2006年
本文關(guān)鍵詞:分類規(guī)則挖掘在金融中的應(yīng)用,,由筆耕文化傳播整理發(fā)布。
本文編號:279230
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/279230.html