基于CNN-XGBoost的互聯(lián)網(wǎng)金融防欺詐問題的實(shí)證研究
發(fā)布時(shí)間:2021-04-13 19:12
金融欺詐檢測(cè)的目的是預(yù)測(cè)潛在的欺詐用戶和欺詐行為,減少金融機(jī)構(gòu)損失。隨著互聯(lián)網(wǎng)金融的快速發(fā)展,對(duì)金融反欺詐方案的需求愈發(fā)迫切。機(jī)器學(xué)習(xí)方法在欺詐檢測(cè)中的應(yīng)用十分廣泛。模型和神經(jīng)網(wǎng)絡(luò)都是重要的分類方法,樹模型可解釋性更強(qiáng),但分類效果十分依賴于手動(dòng)設(shè)計(jì)的特征,神經(jīng)網(wǎng)絡(luò)可以自動(dòng)實(shí)現(xiàn)特征提取,但更易過擬合。因此本文結(jié)合了這兩種算法的優(yōu)勢(shì),對(duì)卷積神經(jīng)網(wǎng)絡(luò)CNN與XGBoost的組合進(jìn)行了研究。XGBoost是一種常用的分類方法,XGBoost引入了正則化項(xiàng)控制模型復(fù)雜度,大幅提升了模型的抗過擬合能力。相較于傳統(tǒng)樹模型的效果提升十分明顯,但XGBoost仍然依賴于人工進(jìn)行特征工程處理。CNN能自動(dòng)完成特征提取,對(duì)數(shù)據(jù)中的重要特征在高維空間進(jìn)行組合和篩選,但隨著特征抽象程度的提高,過擬合現(xiàn)象大幅影響了網(wǎng)絡(luò)的表現(xiàn)。本文將CNN中的低抽象度特征加入到原始特征中訓(xùn)練XGBoost,同時(shí)利用了 CNN自動(dòng)實(shí)現(xiàn)特征提取的特點(diǎn)和XGBoost抗過擬合的特點(diǎn),提高了模型擬合的上界。本文主要工作如下:(1)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理和先驗(yàn)分析;谡(fù)樣本比例接近1:12的信用卡欺詐數(shù)據(jù),對(duì)原始數(shù)據(jù)進(jìn)行探索性分析,通過可視化...
【文章來源】:華中師范大學(xué)湖北省 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:64 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2.1神經(jīng)網(wǎng)絡(luò)示意圖??
佳的效果,從此不少學(xué)者開始重視CNN的研究[25:。??CNN具有多層結(jié)構(gòu)、池化操作、局部連接及權(quán)值共享這四個(gè)特點(diǎn)。在傳統(tǒng)的神經(jīng)網(wǎng)??絡(luò)中,全連接層中的神經(jīng)元之間互相連接,使得參數(shù)太多,訓(xùn)練過程耗時(shí)長(zhǎng)且容易??過擬合。而CNN利用了局部感受野與權(quán)值共享的兩大特性,共享權(quán)重和偏置值,大??大減少網(wǎng)絡(luò)訓(xùn)練的參數(shù),降低網(wǎng)絡(luò)訓(xùn)練的復(fù)雜度[26。??感受野的定義為,卷積神經(jīng)網(wǎng)絡(luò)中每層輸出的特征圖上像素點(diǎn)在原始圖像中映??射區(qū)域的大小,利用局部感受野,每個(gè)神經(jīng)元只需感知圖像的局部[27:。??圖2.?2感受野示意圖??計(jì)算感受野時(shí)從最后一層開始計(jì)算,再逐層傳遞至第一層,計(jì)算公式為:??RFj?=?(RFj+i?-?l)?x?stridej?+?Ksizej?(2.?27)??巧為第j層卷積層的感受野,/^.+1為第j+1層上的感受野。Ksize為本層卷積核??大小,stride為卷積步長(zhǎng)。在感受野的計(jì)算中,最后一層輸出特征圖的感受野大小??與卷積核大小相等,第j層卷積層感受野的大小不僅與第j層的卷積步長(zhǎng)和卷積核??大小有關(guān),還與第j+1層感受野的大小有關(guān)。另外,在計(jì)算感受野時(shí)不考慮padding??的大小,也就是忽略圖像邊緣的影響。在一張圖像中,局部像素之間密切相關(guān)。在??隱藏層中,圖像的局部相關(guān)與神經(jīng)元的局部連接能極大地減少參數(shù)數(shù)目,隱藏層中??的神經(jīng)元只需要與感受野區(qū)域連接。另外,隱藏層中神經(jīng)元之間的權(quán)值共享也能減??少參數(shù)數(shù)目。??CNN的常用結(jié)構(gòu)一般由卷積層、池化層和全連接層組成。其中,卷積層是卷積神??經(jīng)網(wǎng)絡(luò)中最核心最關(guān)鍵的部分,用于提取特征,池化層用于降維,能減少網(wǎng)絡(luò)中參??數(shù)數(shù)量,全連接層一般位于網(wǎng)絡(luò)的最后,用做
果??個(gè)??XGBoost?訓(xùn)練?(f?)??新的特證數(shù)據(jù)?c?...)(-...)…r-...'-?)?:::::::??、?,、?^?J?X?M?U?M?M?????zl?x2x3?????xji??全連掊層?(?)?原始特證教據(jù)??/????信息提取?(....?)?c?...?)??…r' ̄r ̄")??隹積層?(個(gè))??r%?r%?rv?rv?rv?rv??原始特征數(shù)裾??vy?kJ?Lx??xl?x2x3?…?xn??圖2.?3?CNN-XGBoost組合模型訓(xùn)練流程??2.?3.1?I?ncept?i?on?網(wǎng)絡(luò)??在標(biāo)準(zhǔn)的卷積神經(jīng)網(wǎng)絡(luò)中,網(wǎng)絡(luò)的每一層都從之前的層中提取信息,從而將輸??入數(shù)據(jù)轉(zhuǎn)換為更有用的信息,但是類型不同的層提取的特征種類也不同。Inception??模型能對(duì)這些不同的變換結(jié)果并行計(jì)算,它是一種具有優(yōu)良結(jié)構(gòu)的網(wǎng)絡(luò),其局部拓??撲結(jié)構(gòu)能對(duì)輸入數(shù)據(jù)并行執(zhí)行多個(gè)池化操作或卷積運(yùn)算,并將所有的輸出結(jié)果拼接??在一起形成一個(gè)特征圖。Inception在同一層級(jí)上運(yùn)行了濾波器尺寸為1?x?1,3?x?3,??5x5,?7x7的卷積層,將不同濾波器尺寸的卷積組合在一起,經(jīng)過卷積操作后,輸??出的結(jié)果再全部整合在一起,而選擇不同尺寸的濾波器的目的在于收集上一層輸入??13??
【參考文獻(xiàn)】:
期刊論文
[1]基于SMOTE和XGBoost的貸款風(fēng)險(xiǎn)預(yù)測(cè)方法[J]. 劉斌,陳凱. 計(jì)算機(jī)與現(xiàn)代化. 2020(02)
[2]SMOTE混合抽樣對(duì)非平衡數(shù)據(jù)分類效果的影響分析[J]. 王蕾,劉賽可,夏利宇. 調(diào)研世界. 2020(01)
[3]缺失數(shù)據(jù)的處理方法及其發(fā)展趨勢(shì)[J]. 鄧建新,單路寶,賀德強(qiáng),唐銳. 統(tǒng)計(jì)與決策. 2019(23)
[4]互聯(lián)網(wǎng)金融背景下銀行信用卡欺詐與套現(xiàn)風(fēng)險(xiǎn)防控研究[J]. 張?jiān)? 時(shí)代金融. 2019(11)
[5]局部感受野的寬度學(xué)習(xí)算法及其應(yīng)用[J]. 李國(guó)強(qiáng),徐立莊. 計(jì)算機(jī)工程與應(yīng)用. 2020(09)
[6]結(jié)合Inception模型的卷積神經(jīng)網(wǎng)絡(luò)圖像去噪方法[J]. 李敏,章國(guó)豪,曾建偉,楊曉鋒,胡曉敏. 計(jì)算機(jī)工程與應(yīng)用. 2019(20)
[7]神經(jīng)網(wǎng)絡(luò)模型在銀行互聯(lián)網(wǎng)金融反欺詐中的應(yīng)用探索[J]. 李赟妮. 金融科技時(shí)代. 2018(08)
[8]基于Mini-batch神經(jīng)網(wǎng)絡(luò)的船舶柴油機(jī)風(fēng)險(xiǎn)等級(jí)預(yù)測(cè)[J]. 尚前明,王瀟,曹召,劉治江,鄧曉光. 中國(guó)修船. 2018(04)
[9]基于規(guī)則引擎的互聯(lián)網(wǎng)金融反欺詐研究[J]. 丁濛濛. 電腦知識(shí)與技術(shù). 2018(01)
[10]互聯(lián)網(wǎng)金融違約欺詐風(fēng)險(xiǎn)事件研究[J]. 楊荻. 經(jīng)濟(jì)研究參考. 2016(63)
碩士論文
[1]基于大數(shù)據(jù)的互聯(lián)網(wǎng)金融欺詐行為識(shí)別研究[D]. 丁爽斯.首都經(jīng)濟(jì)貿(mào)易大學(xué) 2016
[2]多標(biāo)簽分類中標(biāo)簽編碼算法研究[D]. 曹蕾.南京師范大學(xué) 2015
本文編號(hào):3135856
【文章來源】:華中師范大學(xué)湖北省 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:64 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2.1神經(jīng)網(wǎng)絡(luò)示意圖??
佳的效果,從此不少學(xué)者開始重視CNN的研究[25:。??CNN具有多層結(jié)構(gòu)、池化操作、局部連接及權(quán)值共享這四個(gè)特點(diǎn)。在傳統(tǒng)的神經(jīng)網(wǎng)??絡(luò)中,全連接層中的神經(jīng)元之間互相連接,使得參數(shù)太多,訓(xùn)練過程耗時(shí)長(zhǎng)且容易??過擬合。而CNN利用了局部感受野與權(quán)值共享的兩大特性,共享權(quán)重和偏置值,大??大減少網(wǎng)絡(luò)訓(xùn)練的參數(shù),降低網(wǎng)絡(luò)訓(xùn)練的復(fù)雜度[26。??感受野的定義為,卷積神經(jīng)網(wǎng)絡(luò)中每層輸出的特征圖上像素點(diǎn)在原始圖像中映??射區(qū)域的大小,利用局部感受野,每個(gè)神經(jīng)元只需感知圖像的局部[27:。??圖2.?2感受野示意圖??計(jì)算感受野時(shí)從最后一層開始計(jì)算,再逐層傳遞至第一層,計(jì)算公式為:??RFj?=?(RFj+i?-?l)?x?stridej?+?Ksizej?(2.?27)??巧為第j層卷積層的感受野,/^.+1為第j+1層上的感受野。Ksize為本層卷積核??大小,stride為卷積步長(zhǎng)。在感受野的計(jì)算中,最后一層輸出特征圖的感受野大小??與卷積核大小相等,第j層卷積層感受野的大小不僅與第j層的卷積步長(zhǎng)和卷積核??大小有關(guān),還與第j+1層感受野的大小有關(guān)。另外,在計(jì)算感受野時(shí)不考慮padding??的大小,也就是忽略圖像邊緣的影響。在一張圖像中,局部像素之間密切相關(guān)。在??隱藏層中,圖像的局部相關(guān)與神經(jīng)元的局部連接能極大地減少參數(shù)數(shù)目,隱藏層中??的神經(jīng)元只需要與感受野區(qū)域連接。另外,隱藏層中神經(jīng)元之間的權(quán)值共享也能減??少參數(shù)數(shù)目。??CNN的常用結(jié)構(gòu)一般由卷積層、池化層和全連接層組成。其中,卷積層是卷積神??經(jīng)網(wǎng)絡(luò)中最核心最關(guān)鍵的部分,用于提取特征,池化層用于降維,能減少網(wǎng)絡(luò)中參??數(shù)數(shù)量,全連接層一般位于網(wǎng)絡(luò)的最后,用做
果??個(gè)??XGBoost?訓(xùn)練?(f?)??新的特證數(shù)據(jù)?c?...)(-...)…r-...'-?)?:::::::??、?,、?^?J?X?M?U?M?M?????zl?x2x3?????xji??全連掊層?(?)?原始特證教據(jù)??/????信息提取?(....?)?c?...?)??…r' ̄r ̄")??隹積層?(個(gè))??r%?r%?rv?rv?rv?rv??原始特征數(shù)裾??vy?kJ?Lx??xl?x2x3?…?xn??圖2.?3?CNN-XGBoost組合模型訓(xùn)練流程??2.?3.1?I?ncept?i?on?網(wǎng)絡(luò)??在標(biāo)準(zhǔn)的卷積神經(jīng)網(wǎng)絡(luò)中,網(wǎng)絡(luò)的每一層都從之前的層中提取信息,從而將輸??入數(shù)據(jù)轉(zhuǎn)換為更有用的信息,但是類型不同的層提取的特征種類也不同。Inception??模型能對(duì)這些不同的變換結(jié)果并行計(jì)算,它是一種具有優(yōu)良結(jié)構(gòu)的網(wǎng)絡(luò),其局部拓??撲結(jié)構(gòu)能對(duì)輸入數(shù)據(jù)并行執(zhí)行多個(gè)池化操作或卷積運(yùn)算,并將所有的輸出結(jié)果拼接??在一起形成一個(gè)特征圖。Inception在同一層級(jí)上運(yùn)行了濾波器尺寸為1?x?1,3?x?3,??5x5,?7x7的卷積層,將不同濾波器尺寸的卷積組合在一起,經(jīng)過卷積操作后,輸??出的結(jié)果再全部整合在一起,而選擇不同尺寸的濾波器的目的在于收集上一層輸入??13??
【參考文獻(xiàn)】:
期刊論文
[1]基于SMOTE和XGBoost的貸款風(fēng)險(xiǎn)預(yù)測(cè)方法[J]. 劉斌,陳凱. 計(jì)算機(jī)與現(xiàn)代化. 2020(02)
[2]SMOTE混合抽樣對(duì)非平衡數(shù)據(jù)分類效果的影響分析[J]. 王蕾,劉賽可,夏利宇. 調(diào)研世界. 2020(01)
[3]缺失數(shù)據(jù)的處理方法及其發(fā)展趨勢(shì)[J]. 鄧建新,單路寶,賀德強(qiáng),唐銳. 統(tǒng)計(jì)與決策. 2019(23)
[4]互聯(lián)網(wǎng)金融背景下銀行信用卡欺詐與套現(xiàn)風(fēng)險(xiǎn)防控研究[J]. 張?jiān)? 時(shí)代金融. 2019(11)
[5]局部感受野的寬度學(xué)習(xí)算法及其應(yīng)用[J]. 李國(guó)強(qiáng),徐立莊. 計(jì)算機(jī)工程與應(yīng)用. 2020(09)
[6]結(jié)合Inception模型的卷積神經(jīng)網(wǎng)絡(luò)圖像去噪方法[J]. 李敏,章國(guó)豪,曾建偉,楊曉鋒,胡曉敏. 計(jì)算機(jī)工程與應(yīng)用. 2019(20)
[7]神經(jīng)網(wǎng)絡(luò)模型在銀行互聯(lián)網(wǎng)金融反欺詐中的應(yīng)用探索[J]. 李赟妮. 金融科技時(shí)代. 2018(08)
[8]基于Mini-batch神經(jīng)網(wǎng)絡(luò)的船舶柴油機(jī)風(fēng)險(xiǎn)等級(jí)預(yù)測(cè)[J]. 尚前明,王瀟,曹召,劉治江,鄧曉光. 中國(guó)修船. 2018(04)
[9]基于規(guī)則引擎的互聯(lián)網(wǎng)金融反欺詐研究[J]. 丁濛濛. 電腦知識(shí)與技術(shù). 2018(01)
[10]互聯(lián)網(wǎng)金融違約欺詐風(fēng)險(xiǎn)事件研究[J]. 楊荻. 經(jīng)濟(jì)研究參考. 2016(63)
碩士論文
[1]基于大數(shù)據(jù)的互聯(lián)網(wǎng)金融欺詐行為識(shí)別研究[D]. 丁爽斯.首都經(jīng)濟(jì)貿(mào)易大學(xué) 2016
[2]多標(biāo)簽分類中標(biāo)簽編碼算法研究[D]. 曹蕾.南京師范大學(xué) 2015
本文編號(hào):3135856
本文鏈接:http://www.sikaile.net/guanlilunwen/bankxd/3135856.html
最近更新
教材專著