中概股的新聞極性市場預測研究
發(fā)布時間:2021-09-04 14:56
股票市場的預測一直是數(shù)據(jù)研究熱點,但是受到很多因素的影響,其預測難度較高.新聞是影響股價的重要因素,投資者也經(jīng)常依賴新聞進行股票交易與決策,因此對新聞的剖析可以為投資者提供有效信息.新聞作為非結(jié)構(gòu)性數(shù)據(jù)運用到股票預測中困難重重,而隨著機器學習技術(shù)和自然語言分析技術(shù)的發(fā)展,使得該問題的解決成為了可能.目前國內(nèi)外資本市場政策上的顯著差異性導致越來越多的國內(nèi)企業(yè)在國外上市,而關于中文新聞對中概股預測影響的研究卻很少.本文提出了一種新的循環(huán)評估支持向量機(Cyclic Evaluation Support Vector Machine,CE-SVM)模型,并將其應用于新聞極性對中概股預測的研究中.實驗證明,CE-SVM相比起樸素貝葉斯模型提高了4%的準確率,證明了方法的有效性.
【文章來源】:小型微型計算機系統(tǒng). 2020,41(03)北大核心CSCD
【文章頁數(shù)】:6 頁
【部分圖文】:
方案整體流程圖
考慮到股票市場大環(huán)境以及不同中概股之間的相互影響,本文自定義了中概股指數(shù)使標簽標準化,并設計了全自動機器打標簽模型,將金融新聞和股票波動相結(jié)合.中概股指數(shù)指的是中概股股票平均股價變動率(上漲為正,下降為負),具體計算詳見公式(1),模型如圖2所示.通過公示(2)的邏輯關系,根據(jù)文章對股市的影響來自動標注可以實現(xiàn)基本的標記功能,且節(jié)省了人力與時間.默認交易日當天報道的新聞會即時影響到當天股價的變動,同時考慮到非交易日報道新聞的影響力,將非交易日的新聞合并至下一交易周期的第一個交易日的新聞數(shù)據(jù)集中.結(jié)合交易日當天金融股票交易數(shù)據(jù)中的開盤與收盤價格的變化進行打標簽操作.將股票交易數(shù)據(jù)與金融新聞數(shù)據(jù)同時輸入全自動機器打標簽模型中,經(jīng)過模型處理后輸出完成打標簽操作后的語料,其結(jié)構(gòu)組成為“極性標簽+新聞標題+新聞內(nèi)容”.式中:β為中概股指數(shù),αi為第i只中概股的股價變動率,n為中概股股票總數(shù),li為與第i只中概股相關新聞的極性標簽.
將SVM模型訓練與評估操作嵌入模型預期預測準確率已設定的循環(huán)中,使用交叉驗證思想,重復地使用數(shù)據(jù),把得到的樣本內(nèi)數(shù)據(jù)進行切分,在此基礎上可以得到多組不同的訓練集和驗證集.通過引入隨機數(shù)種子作為參數(shù),將語料向量集合隨機劃分為訓練集和驗證集,其中,訓練集占語料向量集合總數(shù)的80%,驗證集占語料向量集合總數(shù)的20%.重復實驗時,在其他參數(shù)不變的情況下,設置不同的隨機數(shù)種子以確保得到不一樣的隨機序列,避免偽隨機數(shù)序列的產(chǎn)生,增加實驗訓練與驗證集組合的多樣性.在不斷訓練與評估的過程中尋找預測準確率達到設定要求的模型.經(jīng)過實踐可得,預期預測準確率設定為0.65時得到的結(jié)果較為合理.通過調(diào)用SVM模型評估函數(shù),獲取當前模型的精確率(precision)、召回率(recall)、f1值(f1-score)等信息,并計算準確度(accuracy).
【參考文獻】:
期刊論文
[1]信息熵特征加權(quán)核函數(shù)的SVM數(shù)據(jù)分類方法[J]. 李長生,吳辰文,梁靖涵,王偉. 小型微型計算機系統(tǒng). 2017(07)
[2]社會互動對股票市場的影響——基于新浪財經(jīng)博客的實證分析[J]. 楊曉蘭,高媚,朱淋. 證券市場導報. 2016(07)
[3]論重大資產(chǎn)重組信息披露制度的完善[J]. 李有星,馮澤良. 浙江大學學報(人文社會科學版). 2015(03)
[4]基于微博情緒信息的股票市場預測[J]. 黃潤鵬,左文明,畢凌燕. 管理工程學報. 2015(01)
[5]大數(shù)據(jù)技術(shù)研究綜述[J]. 劉智慧,張泉靈. 浙江大學學報(工學版). 2014(06)
[6]SVM分類核函數(shù)及參數(shù)選擇比較[J]. 奉國和. 計算機工程與應用. 2011(03)
本文編號:3383478
【文章來源】:小型微型計算機系統(tǒng). 2020,41(03)北大核心CSCD
【文章頁數(shù)】:6 頁
【部分圖文】:
方案整體流程圖
考慮到股票市場大環(huán)境以及不同中概股之間的相互影響,本文自定義了中概股指數(shù)使標簽標準化,并設計了全自動機器打標簽模型,將金融新聞和股票波動相結(jié)合.中概股指數(shù)指的是中概股股票平均股價變動率(上漲為正,下降為負),具體計算詳見公式(1),模型如圖2所示.通過公示(2)的邏輯關系,根據(jù)文章對股市的影響來自動標注可以實現(xiàn)基本的標記功能,且節(jié)省了人力與時間.默認交易日當天報道的新聞會即時影響到當天股價的變動,同時考慮到非交易日報道新聞的影響力,將非交易日的新聞合并至下一交易周期的第一個交易日的新聞數(shù)據(jù)集中.結(jié)合交易日當天金融股票交易數(shù)據(jù)中的開盤與收盤價格的變化進行打標簽操作.將股票交易數(shù)據(jù)與金融新聞數(shù)據(jù)同時輸入全自動機器打標簽模型中,經(jīng)過模型處理后輸出完成打標簽操作后的語料,其結(jié)構(gòu)組成為“極性標簽+新聞標題+新聞內(nèi)容”.式中:β為中概股指數(shù),αi為第i只中概股的股價變動率,n為中概股股票總數(shù),li為與第i只中概股相關新聞的極性標簽.
將SVM模型訓練與評估操作嵌入模型預期預測準確率已設定的循環(huán)中,使用交叉驗證思想,重復地使用數(shù)據(jù),把得到的樣本內(nèi)數(shù)據(jù)進行切分,在此基礎上可以得到多組不同的訓練集和驗證集.通過引入隨機數(shù)種子作為參數(shù),將語料向量集合隨機劃分為訓練集和驗證集,其中,訓練集占語料向量集合總數(shù)的80%,驗證集占語料向量集合總數(shù)的20%.重復實驗時,在其他參數(shù)不變的情況下,設置不同的隨機數(shù)種子以確保得到不一樣的隨機序列,避免偽隨機數(shù)序列的產(chǎn)生,增加實驗訓練與驗證集組合的多樣性.在不斷訓練與評估的過程中尋找預測準確率達到設定要求的模型.經(jīng)過實踐可得,預期預測準確率設定為0.65時得到的結(jié)果較為合理.通過調(diào)用SVM模型評估函數(shù),獲取當前模型的精確率(precision)、召回率(recall)、f1值(f1-score)等信息,并計算準確度(accuracy).
【參考文獻】:
期刊論文
[1]信息熵特征加權(quán)核函數(shù)的SVM數(shù)據(jù)分類方法[J]. 李長生,吳辰文,梁靖涵,王偉. 小型微型計算機系統(tǒng). 2017(07)
[2]社會互動對股票市場的影響——基于新浪財經(jīng)博客的實證分析[J]. 楊曉蘭,高媚,朱淋. 證券市場導報. 2016(07)
[3]論重大資產(chǎn)重組信息披露制度的完善[J]. 李有星,馮澤良. 浙江大學學報(人文社會科學版). 2015(03)
[4]基于微博情緒信息的股票市場預測[J]. 黃潤鵬,左文明,畢凌燕. 管理工程學報. 2015(01)
[5]大數(shù)據(jù)技術(shù)研究綜述[J]. 劉智慧,張泉靈. 浙江大學學報(工學版). 2014(06)
[6]SVM分類核函數(shù)及參數(shù)選擇比較[J]. 奉國和. 計算機工程與應用. 2011(03)
本文編號:3383478
本文鏈接:http://www.sikaile.net/jingjilunwen/jinrongzhengquanlunwen/3383478.html
教材專著