基于LightGBM算法的量化選股策略方案策劃
發(fā)布時(shí)間:2020-05-29 01:47
【摘要】:最近幾十年,科學(xué)技術(shù)飛速發(fā)展。與此同時(shí)在此背景下,計(jì)算機(jī)技術(shù)也在飛速的發(fā)展,接連取得突破性成就。也正是計(jì)算機(jī)技術(shù)的飛速發(fā)展,金融量化事業(yè)才得以快速發(fā)展。量化投資不同于以往的投資方式,量化投資是一種主動(dòng)型的資產(chǎn)管理方法,它是指通過(guò)數(shù)量化的方法和程序化的計(jì)算機(jī)軟件算法來(lái)進(jìn)行交易。量化投資作其以系統(tǒng)性、紀(jì)律性和分散性等等一些特點(diǎn)獲得了投資者的廣泛青睞。我國(guó)量化投資事業(yè)在一些方面與發(fā)達(dá)國(guó)家還有較大差距,比如量化思想、量化市場(chǎng)環(huán)境和量化技術(shù)。但是可喜的是,我國(guó)這幾年在量化方面也取得了很大的成就,很多券商、基金公司、銀行等金融機(jī)構(gòu)都配置了專門的量化部門。本文著眼于眼下國(guó)內(nèi)量化投資的大環(huán)境,也期望通過(guò)量化投資方式,在股票市場(chǎng)上取得良好的回報(bào)。因此,本文選取滬深300成份股2013年7月至2018年6月每月最后一個(gè)交易日的因子數(shù)據(jù)作為數(shù)據(jù)樣本,模型構(gòu)建主要分為數(shù)據(jù)預(yù)處理、因子篩選、模型參數(shù)尋優(yōu)、模型構(gòu)建與結(jié)果分析、模型比較與優(yōu)化幾個(gè)部分。本文構(gòu)建基于Light GBM算法的多因子選股模型,以滬深300成份股為備選股票池,通過(guò)上述方案從中選取具有投資價(jià)值的股票構(gòu)建投資組合,選出的股票組合的總收益為40.09%,年化復(fù)合收益率高達(dá)18.36%,夏普比率為0.4110,有75%的月份跑贏滬深300指數(shù),最后凈值達(dá)到1.4009,遠(yuǎn)超基準(zhǔn)滬深300指數(shù)收益率?偟膩(lái)說(shuō),此多因子選股模型是能夠取得持續(xù)正收益的模型。
【圖文】:
訓(xùn)練樣本空間呈現(xiàn)出線性可分狀態(tài)時(shí),這時(shí)的支持向量機(jī)分類最為簡(jiǎn)單,只要到一個(gè)找的分割面就好了。但是,往往樣本不是線性可分的狀態(tài),這時(shí)候支持量機(jī)算法就會(huì)通過(guò)核函數(shù)這個(gè)方法,將原始的數(shù)據(jù)投射到更加高維度的特征間,這樣做的目的就是為了使線性不可分狀態(tài)變成線性可分狀態(tài)。這時(shí)候就可找出最好的超平面去實(shí)現(xiàn)分類任務(wù)。與此同時(shí),,找到最優(yōu)分類平面是在以使得構(gòu)風(fēng)險(xiǎn)降到最低為條件的,以將置信范圍降低到最小范圍當(dāng)做其目標(biāo)的。如下圖所示,就是支持向量機(jī)算法的簡(jiǎn)單原理示意圖。原理示意圖還是比直觀明了的,這說(shuō)明支持向量機(jī)模型雖然有很復(fù)雜的原理內(nèi)容,但是支持向量算法的最直接的思路卻是很直觀明了的。下圖中藍(lán)色的點(diǎn)和橙色的點(diǎn)代表著兩不同樣例,支持向量機(jī)算法的目的就是找出將他們分為兩類的那個(gè)最優(yōu)的超平H 。1H 是橙色樣本構(gòu)成的平面,這個(gè)平面是距離最優(yōu)超平面最近的,并且還超平面是平行的關(guān)系。2H 也是相同原理。
的三倍標(biāo)準(zhǔn)差范圍上下波動(dòng),而異常值就是那些與平均值相差超過(guò)三倍圍的值,用公式表示就是:P (x 3 ) 0.03(如果特征數(shù)值滿足正態(tài)分布的條件這種情況,那么偏差絕對(duì)值大于這個(gè)的值出現(xiàn)的概率不會(huì)大于 0.03 這個(gè)概率值。這一般很難會(huì)發(fā)生,此時(shí)可以將之成為數(shù)據(jù)中的異常值。相比于3 原則使用條件苛刻,處理異常值的箱型圖方法就不要求特征如此嚴(yán)格的分布。箱型圖的原理也是十分的簡(jiǎn)單,它通過(guò)四分位數(shù)來(lái)檢的存在。箱型圖通過(guò)作圖來(lái)給出特征數(shù)據(jù)的直觀分布展示,從這個(gè)箱型就可以清楚地看出異常值的存在。另外,用箱型圖而不是3 原則來(lái)檢的存在的另外的一個(gè)好處在于四分位數(shù)更具有魯棒性,有四分之一的數(shù)得任意遠(yuǎn)且不會(huì)使四分位數(shù)受到干擾。
【學(xué)位授予單位】:上海師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:F832.51
本文編號(hào):2686183
【圖文】:
訓(xùn)練樣本空間呈現(xiàn)出線性可分狀態(tài)時(shí),這時(shí)的支持向量機(jī)分類最為簡(jiǎn)單,只要到一個(gè)找的分割面就好了。但是,往往樣本不是線性可分的狀態(tài),這時(shí)候支持量機(jī)算法就會(huì)通過(guò)核函數(shù)這個(gè)方法,將原始的數(shù)據(jù)投射到更加高維度的特征間,這樣做的目的就是為了使線性不可分狀態(tài)變成線性可分狀態(tài)。這時(shí)候就可找出最好的超平面去實(shí)現(xiàn)分類任務(wù)。與此同時(shí),,找到最優(yōu)分類平面是在以使得構(gòu)風(fēng)險(xiǎn)降到最低為條件的,以將置信范圍降低到最小范圍當(dāng)做其目標(biāo)的。如下圖所示,就是支持向量機(jī)算法的簡(jiǎn)單原理示意圖。原理示意圖還是比直觀明了的,這說(shuō)明支持向量機(jī)模型雖然有很復(fù)雜的原理內(nèi)容,但是支持向量算法的最直接的思路卻是很直觀明了的。下圖中藍(lán)色的點(diǎn)和橙色的點(diǎn)代表著兩不同樣例,支持向量機(jī)算法的目的就是找出將他們分為兩類的那個(gè)最優(yōu)的超平H 。1H 是橙色樣本構(gòu)成的平面,這個(gè)平面是距離最優(yōu)超平面最近的,并且還超平面是平行的關(guān)系。2H 也是相同原理。
的三倍標(biāo)準(zhǔn)差范圍上下波動(dòng),而異常值就是那些與平均值相差超過(guò)三倍圍的值,用公式表示就是:P (x 3 ) 0.03(如果特征數(shù)值滿足正態(tài)分布的條件這種情況,那么偏差絕對(duì)值大于這個(gè)的值出現(xiàn)的概率不會(huì)大于 0.03 這個(gè)概率值。這一般很難會(huì)發(fā)生,此時(shí)可以將之成為數(shù)據(jù)中的異常值。相比于3 原則使用條件苛刻,處理異常值的箱型圖方法就不要求特征如此嚴(yán)格的分布。箱型圖的原理也是十分的簡(jiǎn)單,它通過(guò)四分位數(shù)來(lái)檢的存在。箱型圖通過(guò)作圖來(lái)給出特征數(shù)據(jù)的直觀分布展示,從這個(gè)箱型就可以清楚地看出異常值的存在。另外,用箱型圖而不是3 原則來(lái)檢的存在的另外的一個(gè)好處在于四分位數(shù)更具有魯棒性,有四分之一的數(shù)得任意遠(yuǎn)且不會(huì)使四分位數(shù)受到干擾。
【學(xué)位授予單位】:上海師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:F832.51
【參考文獻(xiàn)】
相關(guān)期刊論文 前4條
1 曹正鳳;紀(jì)宏;謝邦昌;;使用隨機(jī)森林算法實(shí)現(xiàn)優(yōu)質(zhì)股票的選擇[J];首都經(jīng)濟(jì)貿(mào)易大學(xué)學(xué)報(bào);2014年02期
2 陳榮達(dá);虞歡歡;;基于啟發(fā)式算法的支持向量機(jī)選股模型[J];系統(tǒng)工程;2014年02期
3 蘇治;傅曉媛;;核主成分遺傳算法與SVR選股模型改進(jìn)[J];統(tǒng)計(jì)研究;2013年05期
4 董伯明;美國(guó)股票市場(chǎng)的技術(shù)分析法及其理論[J];世界經(jīng)濟(jì)研究;1990年01期
本文編號(hào):2686183
本文鏈接:http://www.sikaile.net/jingjilunwen/jinrongzhengquanlunwen/2686183.html
最近更新
教材專著