基于隨機(jī)森林的上市公司舞弊風(fēng)險(xiǎn)識(shí)別模型研究
發(fā)布時(shí)間:2021-07-08 23:41
當(dāng)下我國(guó)處于金融體制轉(zhuǎn)型的關(guān)鍵時(shí)期,正逐漸成為全球經(jīng)濟(jì)增長(zhǎng)的重要驅(qū)動(dòng)力。然而過(guò)去二十年間上市公司舞弊丑聞?lì)l發(fā)、屢禁不止,沉重打擊投資者和社會(huì)公眾對(duì)資本市場(chǎng)的信心,使得公司財(cái)務(wù)報(bào)告公信力下降。能否有效治理公司舞弊這一資本市場(chǎng)頑疾,將決定新興時(shí)期資本市場(chǎng)與實(shí)體經(jīng)濟(jì)有效對(duì)接的成功與否以及供給側(cè)結(jié)構(gòu)性改革下產(chǎn)業(yè)轉(zhuǎn)型升級(jí)的效率、效果,會(huì)計(jì)理論界、實(shí)務(wù)界和監(jiān)管機(jī)構(gòu)對(duì)此都高度關(guān)注。研究表明相較于案例分析,模型識(shí)別舞弊效果更優(yōu),F(xiàn)階段在舞弊識(shí)別指標(biāo)方面的研究相對(duì)完善,舞弊識(shí)別模型的構(gòu)建上還有待探索;诖吮疚膶㈦S機(jī)森林算法引入識(shí)別上市公司舞弊,對(duì)保持資本市場(chǎng)有效活力具有極其重要的現(xiàn)實(shí)意義。隨機(jī)森林(Randomforest)作為一種組合分類器算法,在大樣本、高維度特征和異常值數(shù)據(jù)上仍能保持較高的預(yù)測(cè)準(zhǔn)確率,是非線性建模的重要工具之一,近年來(lái)在生物信息學(xué)、醫(yī)學(xué)、社會(huì)科學(xué)等領(lǐng)域研究成果頗豐,并且在風(fēng)險(xiǎn)識(shí)別與預(yù)警中展現(xiàn)出極大的潛力;诖吮疚臉(gòu)建了基于隨機(jī)森林的上市公司舞弊風(fēng)險(xiǎn)識(shí)別模型,相關(guān)數(shù)據(jù)處理和模型構(gòu)建均在Python環(huán)境下編程實(shí)現(xiàn)。本文首先從舞弊動(dòng)因探索與理論分析、舞弊風(fēng)險(xiǎn)識(shí)別指標(biāo)、舞弊風(fēng)險(xiǎn)識(shí)別方法...
【文章來(lái)源】:杭州電子科技大學(xué)浙江省
【文章頁(yè)數(shù)】:64 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖1.1文章結(jié)構(gòu)??
用了太多無(wú)關(guān)的輸入變量時(shí),也會(huì)出現(xiàn)過(guò)擬合問(wèn)題。一般來(lái)說(shuō)決策樹越復(fù)雜,過(guò)??擬合程度就越高。剪枝(pruning)是應(yīng)對(duì)決策樹過(guò)擬合、優(yōu)化模型的常用方法,??如圖3.1。剪枝分一般分為先剪枝(prepruning)和后剪枝(postpriming)。??Treei?Tree2??O?又??/?\?A?^??6?b?i?\>?°?°??/\??a?b??圖3.1決策樹剪枝??先剪枝(prepmning)是指提前停止樹的“生長(zhǎng)”,使結(jié)點(diǎn)成為“樹葉”,一般??只出現(xiàn)在樣本訓(xùn)練過(guò)程中。最常用的提前停止決策樹成長(zhǎng)的方法包括以下兩種:??1)限定一個(gè)高度,當(dāng)決策樹到達(dá)這個(gè)高度時(shí)停止生長(zhǎng);2)定義一個(gè)閾值,當(dāng)不純??度衡量的增益觀察值小于指定的閾值時(shí),決策樹停止生長(zhǎng)。后剪枝(postpnming)??指的是先將整棵決策樹構(gòu)造完整,允許樹存在“過(guò)度擬合”。然后從下到上對(duì)非??葉子結(jié)點(diǎn)進(jìn)行考察,如果結(jié)點(diǎn)對(duì)應(yīng)的子樹被葉子結(jié)點(diǎn)替換后,整棵樹的泛化能力??更強(qiáng),預(yù)測(cè)識(shí)別效果越好,則把該結(jié)點(diǎn)對(duì)應(yīng)的子樹進(jìn)行刪除,即進(jìn)行了“剪枝”。??后剪枝一般是在樣本訓(xùn)練時(shí)構(gòu)建好決策樹,然后利用測(cè)試集來(lái)進(jìn)行剪枝。??先剪枝方法中精準(zhǔn)估計(jì)何時(shí)停止樹的生長(zhǎng)十分困難
行節(jié)點(diǎn)分裂生長(zhǎng),但是隨機(jī)森林會(huì)隨機(jī)選擇節(jié)點(diǎn)的部分樣本特征(M個(gè),M<N)??進(jìn)行最優(yōu)特征選擇,即bootsrap,從而影響決策樹的分支生長(zhǎng),這進(jìn)一步增強(qiáng)了模??型的泛化能力。隨機(jī)森林算法詳細(xì)結(jié)構(gòu)如圖3.3。隨機(jī)森林將決策樹的分類投票結(jié)??果匯總,選擇投票次數(shù)最多的類別為最終的輸出結(jié)果,加強(qiáng)了模型分類效果。??D??Bootstrap??D1?D2?D3??I.?……??'pr….…I??i?A?X?ak?A?Xi??id?fi?p?&?cj?b?6?h?A?&?6?l]:??;?d?h?dn?[jb?i??:?r?i?!?:??★?T?,?t_?_??決策樹分類?|決策樹分類?|決策樹分類??結(jié)果1?結(jié)果2?結(jié)果3??投票決定最??優(yōu)分類??圖3.3隨機(jī)森林思想??隨機(jī)森林具有很強(qiáng)的泛化性,能夠?qū)τ?xùn)練集樣本以外的數(shù)據(jù)進(jìn)行準(zhǔn)確的分類,??即使隨機(jī)森林中決策樹變多,模型也不會(huì)出現(xiàn)過(guò)擬合。前文3.2己經(jīng)指出bootstrap??思想下原始樣本中大約36.8%不會(huì)被抽中的樣本被叫做00B?(袋外數(shù)據(jù)),可以用??24??
本文編號(hào):3272564
【文章來(lái)源】:杭州電子科技大學(xué)浙江省
【文章頁(yè)數(shù)】:64 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖1.1文章結(jié)構(gòu)??
用了太多無(wú)關(guān)的輸入變量時(shí),也會(huì)出現(xiàn)過(guò)擬合問(wèn)題。一般來(lái)說(shuō)決策樹越復(fù)雜,過(guò)??擬合程度就越高。剪枝(pruning)是應(yīng)對(duì)決策樹過(guò)擬合、優(yōu)化模型的常用方法,??如圖3.1。剪枝分一般分為先剪枝(prepruning)和后剪枝(postpriming)。??Treei?Tree2??O?又??/?\?A?^??6?b?i?\>?°?°??/\??a?b??圖3.1決策樹剪枝??先剪枝(prepmning)是指提前停止樹的“生長(zhǎng)”,使結(jié)點(diǎn)成為“樹葉”,一般??只出現(xiàn)在樣本訓(xùn)練過(guò)程中。最常用的提前停止決策樹成長(zhǎng)的方法包括以下兩種:??1)限定一個(gè)高度,當(dāng)決策樹到達(dá)這個(gè)高度時(shí)停止生長(zhǎng);2)定義一個(gè)閾值,當(dāng)不純??度衡量的增益觀察值小于指定的閾值時(shí),決策樹停止生長(zhǎng)。后剪枝(postpnming)??指的是先將整棵決策樹構(gòu)造完整,允許樹存在“過(guò)度擬合”。然后從下到上對(duì)非??葉子結(jié)點(diǎn)進(jìn)行考察,如果結(jié)點(diǎn)對(duì)應(yīng)的子樹被葉子結(jié)點(diǎn)替換后,整棵樹的泛化能力??更強(qiáng),預(yù)測(cè)識(shí)別效果越好,則把該結(jié)點(diǎn)對(duì)應(yīng)的子樹進(jìn)行刪除,即進(jìn)行了“剪枝”。??后剪枝一般是在樣本訓(xùn)練時(shí)構(gòu)建好決策樹,然后利用測(cè)試集來(lái)進(jìn)行剪枝。??先剪枝方法中精準(zhǔn)估計(jì)何時(shí)停止樹的生長(zhǎng)十分困難
行節(jié)點(diǎn)分裂生長(zhǎng),但是隨機(jī)森林會(huì)隨機(jī)選擇節(jié)點(diǎn)的部分樣本特征(M個(gè),M<N)??進(jìn)行最優(yōu)特征選擇,即bootsrap,從而影響決策樹的分支生長(zhǎng),這進(jìn)一步增強(qiáng)了模??型的泛化能力。隨機(jī)森林算法詳細(xì)結(jié)構(gòu)如圖3.3。隨機(jī)森林將決策樹的分類投票結(jié)??果匯總,選擇投票次數(shù)最多的類別為最終的輸出結(jié)果,加強(qiáng)了模型分類效果。??D??Bootstrap??D1?D2?D3??I.?……??'pr….…I??i?A?X?ak?A?Xi??id?fi?p?&?cj?b?6?h?A?&?6?l]:??;?d?h?dn?[jb?i??:?r?i?!?:??★?T?,?t_?_??決策樹分類?|決策樹分類?|決策樹分類??結(jié)果1?結(jié)果2?結(jié)果3??投票決定最??優(yōu)分類??圖3.3隨機(jī)森林思想??隨機(jī)森林具有很強(qiáng)的泛化性,能夠?qū)τ?xùn)練集樣本以外的數(shù)據(jù)進(jìn)行準(zhǔn)確的分類,??即使隨機(jī)森林中決策樹變多,模型也不會(huì)出現(xiàn)過(guò)擬合。前文3.2己經(jīng)指出bootstrap??思想下原始樣本中大約36.8%不會(huì)被抽中的樣本被叫做00B?(袋外數(shù)據(jù)),可以用??24??
本文編號(hào):3272564
本文鏈接:http://www.sikaile.net/jingjilunwen/jinrongzhengquanlunwen/3272564.html
最近更新
教材專著