基于機器學(xué)習(xí)算法的股票收益率方向預(yù)測及分析
發(fā)布時間:2020-04-28 07:18
【摘要】:時下建立在數(shù)理模型基礎(chǔ)上的量化投資技術(shù)得到了廣泛的應(yīng)用,并給投資者帶來了巨大的回報。當今人工智能和機器學(xué)習(xí)技術(shù)方興未艾,在影像識別、搜索推薦等眾多領(lǐng)域已取得傲人成就;相比時序分析,機器學(xué)習(xí)模型可以快速處理、分析海量數(shù)據(jù),并往往具有較好的泛化能力。在本文中,嘗試將相關(guān)機器學(xué)習(xí)算法應(yīng)用于金融數(shù)據(jù)挖掘中,基于新近提出的極度梯度提升樹XGBoost算法、以及主流的機器學(xué)習(xí)算法,提出了一套數(shù)據(jù)挖掘方法,對股票收益率的變化方向進行預(yù)測和分析。首先,考慮股市往往是不平穩(wěn)的、低信噪比的復(fù)雜系統(tǒng),通過小波分解以及閾值去噪對于數(shù)據(jù)的噪聲進行過濾。通過小波的多尺度分析,將股價數(shù)據(jù)分解成不同頻率的子序列,并對高頻部分的數(shù)據(jù)降噪,以進一步提取數(shù)據(jù)中的有效信息。其次,引入多種機器學(xué)習(xí)模型,將股票收益率的變化方向轉(zhuǎn)化為模式識別中的分類問題進行研究。極度梯度提升樹XGBoost是一種新近提出的高效機器學(xué)習(xí)算法,本文基于該算法構(gòu)建了一套量化研究模型,同時構(gòu)建了包括隨機森林、支持向量機SVM等多種前沿機器學(xué)習(xí)方法在內(nèi)的模型進行對比研究。以滬深300中300支成分股2012-2017年的日頻數(shù)據(jù)為樣本,綜合考慮了技術(shù)指標、基本面指標和輿情指標,并通過Boruta算法驗證了所選指標的有效性。通過對去噪后的數(shù)據(jù)建模研究,發(fā)現(xiàn)XGBoost算法的準確率最高,三年的準確率近54.7%,且運行速度有大幅提升,在依靠概率取勝的量化投資中具有重要意義。進一步,根據(jù)模型預(yù)測的信號進行了回測交易,各算法構(gòu)建的策略均可產(chǎn)生超額收益;同時基于XGBoost模型的輸出構(gòu)建了一個新的因子,設(shè)計了一種分層回測檢驗方法,發(fā)現(xiàn)各層策略之間具有顯著差異,進一步驗證了算法具有一定的識別能力。最后,機器學(xué)習(xí)存在黑箱特征,而已有研究中較少有對模型邏輯的研究和闡述,本文進一步嘗試對模型的機理和選股邏輯進行了分析:定義了一種特征權(quán)重的度量方法,對XGBoost中各因子的權(quán)重進行了度量,研究發(fā)現(xiàn)能量潮、市盈率等指標相對重要;通過偏相依關(guān)系的計算,對于各指標與收益率的方向關(guān)系進行衡量,發(fā)現(xiàn)模型中市盈率、市凈率整體與收益率變化方向呈現(xiàn)負向關(guān)系,ROE、周流入額等呈現(xiàn)正向關(guān)系。通過以上分析,一定程度上可以彌補機器學(xué)習(xí)中一直存在的“黑箱性”困擾,使得模型選股的策略邏輯更為清晰。
【圖文】:
入數(shù)據(jù)對其進行轉(zhuǎn)化和分析。本文中使用的模型都為監(jiān)督學(xué)習(xí)模型。逡逑根據(jù)預(yù)測最終輸出的因變量屬性的不同,監(jiān)督學(xué)習(xí)模型包括分類和回歸。分逡逑模型的輸出是有限離散值;而當輸出為連續(xù)數(shù)值的時候,則為回歸模型。在本逡逑中,主要探討的是分類問題。根據(jù)模型的集成性不同,下面對常用的機器學(xué)習(xí)逡逑型進行介紹。在后文中,約定訓(xùn)練集/)邋=邋{0171),...,0^,7以},其中4邋=逡逑(1)為輸入的特征向量,n為特征維數(shù),%邋=邋{1,2/0為類標記,/V為逡逑本容量。逡逑.1.1單一機器學(xué)習(xí)模型逡逑.決策樹逡逑決策樹是一種對數(shù)據(jù)樣本進行分類、回歸的樹轉(zhuǎn)結(jié)構(gòu),包括內(nèi)部節(jié)點、葉節(jié)逡逑和有向邊等部分。內(nèi)部節(jié)點表示一個分裂特征、決定樹的分裂和生長,葉節(jié)點逡逑表模型的輸出,而有向邊則連接樹中的各個節(jié)點。構(gòu)建決策樹時,從根部開始,,逡逑過對輸入數(shù)據(jù)多維特征中的某特征設(shè)置判別條件,將樣本數(shù)據(jù)劃分到不同的子逡逑點中,重復(fù)此過程直至到達葉子節(jié)點并輸出分類。一個決策樹模型如下所示:逡逑
圖2-2邋sigmoid函數(shù)圖逡逑
【學(xué)位授予單位】:中國科學(xué)技術(shù)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:F832.51
【圖文】:
入數(shù)據(jù)對其進行轉(zhuǎn)化和分析。本文中使用的模型都為監(jiān)督學(xué)習(xí)模型。逡逑根據(jù)預(yù)測最終輸出的因變量屬性的不同,監(jiān)督學(xué)習(xí)模型包括分類和回歸。分逡逑模型的輸出是有限離散值;而當輸出為連續(xù)數(shù)值的時候,則為回歸模型。在本逡逑中,主要探討的是分類問題。根據(jù)模型的集成性不同,下面對常用的機器學(xué)習(xí)逡逑型進行介紹。在后文中,約定訓(xùn)練集/)邋=邋{0171),...,0^,7以},其中4邋=逡逑(1)為輸入的特征向量,n為特征維數(shù),%邋=邋{1,2/0為類標記,/V為逡逑本容量。逡逑.1.1單一機器學(xué)習(xí)模型逡逑.決策樹逡逑決策樹是一種對數(shù)據(jù)樣本進行分類、回歸的樹轉(zhuǎn)結(jié)構(gòu),包括內(nèi)部節(jié)點、葉節(jié)逡逑和有向邊等部分。內(nèi)部節(jié)點表示一個分裂特征、決定樹的分裂和生長,葉節(jié)點逡逑表模型的輸出,而有向邊則連接樹中的各個節(jié)點。構(gòu)建決策樹時,從根部開始,,逡逑過對輸入數(shù)據(jù)多維特征中的某特征設(shè)置判別條件,將樣本數(shù)據(jù)劃分到不同的子逡逑點中,重復(fù)此過程直至到達葉子節(jié)點并輸出分類。一個決策樹模型如下所示:逡逑
圖2-2邋sigmoid函數(shù)圖逡逑
【學(xué)位授予單位】:中國科學(xué)技術(shù)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:F832.51
【相似文獻】
相關(guān)期刊論文 前10條
1 卓欣;王河流;;基于經(jīng)營活動視角的財務(wù)指標與股票收益率相關(guān)性分析[J];中國鄉(xiāng)鎮(zhèn)企業(yè)會計;2019年05期
2 曹雷欣;孫紅兵;;基于灰色神經(jīng)網(wǎng)絡(luò)的股票收益率預(yù)測[J];計算機與數(shù)字工程;2017年01期
3 徐斯e
本文編號:2643209
本文鏈接:http://www.sikaile.net/jingjilunwen/jinrongzhengquanlunwen/2643209.html
教材專著