基于深層融合的股票文本主題識別
發(fā)布時間:2022-01-07 14:16
股票市場在資本市場中占據(jù)著重要地位,是經(jīng)濟的晴雨表。專家對股票的評論是投資者進行投資決策的重要依據(jù)。因此,如何快速有效地捕獲眾多專家股評的主題信息,成為股票研究領(lǐng)域的熱點。然而目前大多數(shù)股票文本主題識別算法,其特征選擇方法及分類模式多采用單一的標準。一般而言,單一的標準只能從某個側(cè)面反映文本主題的識別效果,無法全面捕獲目標的主體特征。事實上,不同的特征選擇標準及分類器模型從不同側(cè)面去理解文本,捕獲的特征信息具有較強的互補性。為了提高股票文本主題識別的準確性,文章從信息融合的角度對股票文本進行了多層面融合:1)特征選擇層,對多種特征選擇方法進行加權(quán)融合,使其能夠全面表征股票文本的特點;2)決策層,基于SVM-score,對多個分類器進行決策層融合,使其能夠提高文本識別的準確性。基于實測數(shù)據(jù)的實驗表明:相比單一模式的文本主題識別方法,文章提出的多層融合算法的識別精度明顯更高。
【文章來源】:計算機科學. 2019,46(S2)北大核心CSCD
【文章頁數(shù)】:5 頁
【部分圖文】:
圖1層次融合流程圖本文第2節(jié)介紹文本預處理的基本流程和方法;第3節(jié)
β1+β2+…+βp=1。不同加權(quán)因子的選擇,對文本分類的識別效果不同,選擇合適的加權(quán)因子能夠?qū)ξ谋局黝}識別達到極佳的效果。這里,一定的原則是指在[0,1]的范圍內(nèi)以0為開始,0.1為步長,1為結(jié)束,給特征選擇方法賦予加權(quán)因子值進行特征融合。經(jīng)過加權(quán)融合后,將具有最佳分類效果的參數(shù)用于構(gòu)建最優(yōu)值和測試數(shù)據(jù)。1)http://quote.eastmoney.com/zs000001.html.特征選擇加權(quán)示意圖如圖3所示,設Fisherscore的加權(quán)因子為β1,卡方檢驗的加權(quán)因子為β2,T檢驗的加權(quán)因子為β3,加權(quán)融合后的第r個特征值為:R(r)=β1F(r)+β2χ2(r)+β3T(r)(11)其中,β1+β2+β3=1,F(r)為特征r的Fisher分值0,χ2(r)為特征r的卡方值,T(r)為特征r的T檢驗值。為了獲得一組更有意義和有辨別力的特征,我們建議使用加權(quán)融合系數(shù)的修改版來量化每個文本特征的細微差別。圖3特征選擇加權(quán)示意圖4分類決策SVM尋求最大邊緣超平面來將一個類的樣本與另一個類分開。訓練數(shù)據(jù)的經(jīng)驗風險和模型的復雜性可以是超參數(shù),從而確保對看不見的數(shù)據(jù)具有良好的泛化能力。對特征選擇加權(quán)融合完后的特征,進一步基于SVM的score得分進行決策層融合,構(gòu)建一個增強分類器用于最終的文本主題判別。score得分反映了點到邊緣的距離,值越大,表示
可以看出單一的特征選擇標準的識別準確度相近,但選取的特征數(shù)據(jù)存在較大的差異性,因此進行特征選擇融合來減少數(shù)據(jù)差異性,提高股票文本主題的識別率,具有必要性。而進行特征選擇融合后的文本主題識別,準確率明顯提高,識別效果相對穩(wěn)定。單一特征選擇方法和特征選擇融合后的最優(yōu)結(jié)果對比表明:相比單一模式的特征選擇方法,本文提出的特征選擇融合算法的識別精度明顯提高,通過方差的大小可以看出融合后的特征的穩(wěn)定性明顯有了提高。5.3參數(shù)對識別結(jié)果的影響圖7所示的折線圖為特征數(shù)目對識別準確率的影響。從圖中可以看出,選擇不同的特征數(shù)目對識別準確率有不同的影響。選擇合適的特征數(shù)目是進行文本主題識別、提高識別準確率的關(guān)鍵。圖8所示的折線圖為特征選擇融合權(quán)重對識別準確率的影響。從圖中可以看出,不同的權(quán)重對識別準確率的影響不同,選擇合適的權(quán)重對文本主題識別有不同的分類準確性。其中,Fisherscore和卡方檢驗融合的最佳權(quán)重為(Fisherscore:0.2,卡方:0.8);Fisherscore和T檢驗融合的最佳權(quán)重為(Fisherscore:0.1;T檢驗:0.9);卡方檢驗和T檢驗融合的最佳權(quán)重為(卡方檢驗:0.1,T檢驗:0.9)。圖7特征數(shù)目對識別準確率的影響圖8權(quán)重對識別準確率的影響第11A期張加惠,等:基于深層融合的股票文本主題識別521
【參考文獻】:
期刊論文
[1]基于MapReduce的多級特征選擇機制[J]. 宋哲理,王超,王振飛. 計算機科學. 2018(S2)
[2]電信大數(shù)據(jù)文本挖掘算法及應用[J]. 汪東升,黃傳河,黃曉鵬,倪秋芬. 計算機科學. 2017(12)
[3]基于改進貝葉斯概率模型的推薦算法[J]. 劉付勇,高賢強,張著. 計算機科學. 2017(05)
[4]一種成對約束限制的半監(jiān)督文本聚類算法[J]. 王縱虎,劉速. 計算機科學. 2016(12)
[5]基于Fisher分和支持向量機的特征選擇算法[J]. 張潤蓮,張昭,彭小金,曾兵. 計算機工程與設計. 2014(12)
[6]股票技術(shù)指標相似性與有效性研究[J]. 方匡南,紀宏,路遜. 統(tǒng)計與信息論壇. 2009(09)
博士論文
[1]文本分類及其相關(guān)技術(shù)研究[D]. 李榮陸.復旦大學 2005
碩士論文
[1]基于集成學習的股票買賣點預測研究[D]. 李妍.西北大學 2018
[2]LG-trader:基于局部泛化誤差和特征選擇的股票交易決策支持[D]. 梁雪玲.華南理工大學 2014
[3]我國上市公司股票股利與長期股票價格相關(guān)性研究[D]. 卜樂.東華大學 2014
[4]數(shù)據(jù)挖掘技術(shù)在股票預測中的應用[D]. 張晨希.安徽大學 2006
[5]股票收益分布函數(shù)分析及價格預測[D]. 湯浩.武漢科技大學 2004
本文編號:3574697
【文章來源】:計算機科學. 2019,46(S2)北大核心CSCD
【文章頁數(shù)】:5 頁
【部分圖文】:
圖1層次融合流程圖本文第2節(jié)介紹文本預處理的基本流程和方法;第3節(jié)
β1+β2+…+βp=1。不同加權(quán)因子的選擇,對文本分類的識別效果不同,選擇合適的加權(quán)因子能夠?qū)ξ谋局黝}識別達到極佳的效果。這里,一定的原則是指在[0,1]的范圍內(nèi)以0為開始,0.1為步長,1為結(jié)束,給特征選擇方法賦予加權(quán)因子值進行特征融合。經(jīng)過加權(quán)融合后,將具有最佳分類效果的參數(shù)用于構(gòu)建最優(yōu)值和測試數(shù)據(jù)。1)http://quote.eastmoney.com/zs000001.html.特征選擇加權(quán)示意圖如圖3所示,設Fisherscore的加權(quán)因子為β1,卡方檢驗的加權(quán)因子為β2,T檢驗的加權(quán)因子為β3,加權(quán)融合后的第r個特征值為:R(r)=β1F(r)+β2χ2(r)+β3T(r)(11)其中,β1+β2+β3=1,F(r)為特征r的Fisher分值0,χ2(r)為特征r的卡方值,T(r)為特征r的T檢驗值。為了獲得一組更有意義和有辨別力的特征,我們建議使用加權(quán)融合系數(shù)的修改版來量化每個文本特征的細微差別。圖3特征選擇加權(quán)示意圖4分類決策SVM尋求最大邊緣超平面來將一個類的樣本與另一個類分開。訓練數(shù)據(jù)的經(jīng)驗風險和模型的復雜性可以是超參數(shù),從而確保對看不見的數(shù)據(jù)具有良好的泛化能力。對特征選擇加權(quán)融合完后的特征,進一步基于SVM的score得分進行決策層融合,構(gòu)建一個增強分類器用于最終的文本主題判別。score得分反映了點到邊緣的距離,值越大,表示
可以看出單一的特征選擇標準的識別準確度相近,但選取的特征數(shù)據(jù)存在較大的差異性,因此進行特征選擇融合來減少數(shù)據(jù)差異性,提高股票文本主題的識別率,具有必要性。而進行特征選擇融合后的文本主題識別,準確率明顯提高,識別效果相對穩(wěn)定。單一特征選擇方法和特征選擇融合后的最優(yōu)結(jié)果對比表明:相比單一模式的特征選擇方法,本文提出的特征選擇融合算法的識別精度明顯提高,通過方差的大小可以看出融合后的特征的穩(wěn)定性明顯有了提高。5.3參數(shù)對識別結(jié)果的影響圖7所示的折線圖為特征數(shù)目對識別準確率的影響。從圖中可以看出,選擇不同的特征數(shù)目對識別準確率有不同的影響。選擇合適的特征數(shù)目是進行文本主題識別、提高識別準確率的關(guān)鍵。圖8所示的折線圖為特征選擇融合權(quán)重對識別準確率的影響。從圖中可以看出,不同的權(quán)重對識別準確率的影響不同,選擇合適的權(quán)重對文本主題識別有不同的分類準確性。其中,Fisherscore和卡方檢驗融合的最佳權(quán)重為(Fisherscore:0.2,卡方:0.8);Fisherscore和T檢驗融合的最佳權(quán)重為(Fisherscore:0.1;T檢驗:0.9);卡方檢驗和T檢驗融合的最佳權(quán)重為(卡方檢驗:0.1,T檢驗:0.9)。圖7特征數(shù)目對識別準確率的影響圖8權(quán)重對識別準確率的影響第11A期張加惠,等:基于深層融合的股票文本主題識別521
【參考文獻】:
期刊論文
[1]基于MapReduce的多級特征選擇機制[J]. 宋哲理,王超,王振飛. 計算機科學. 2018(S2)
[2]電信大數(shù)據(jù)文本挖掘算法及應用[J]. 汪東升,黃傳河,黃曉鵬,倪秋芬. 計算機科學. 2017(12)
[3]基于改進貝葉斯概率模型的推薦算法[J]. 劉付勇,高賢強,張著. 計算機科學. 2017(05)
[4]一種成對約束限制的半監(jiān)督文本聚類算法[J]. 王縱虎,劉速. 計算機科學. 2016(12)
[5]基于Fisher分和支持向量機的特征選擇算法[J]. 張潤蓮,張昭,彭小金,曾兵. 計算機工程與設計. 2014(12)
[6]股票技術(shù)指標相似性與有效性研究[J]. 方匡南,紀宏,路遜. 統(tǒng)計與信息論壇. 2009(09)
博士論文
[1]文本分類及其相關(guān)技術(shù)研究[D]. 李榮陸.復旦大學 2005
碩士論文
[1]基于集成學習的股票買賣點預測研究[D]. 李妍.西北大學 2018
[2]LG-trader:基于局部泛化誤差和特征選擇的股票交易決策支持[D]. 梁雪玲.華南理工大學 2014
[3]我國上市公司股票股利與長期股票價格相關(guān)性研究[D]. 卜樂.東華大學 2014
[4]數(shù)據(jù)挖掘技術(shù)在股票預測中的應用[D]. 張晨希.安徽大學 2006
[5]股票收益分布函數(shù)分析及價格預測[D]. 湯浩.武漢科技大學 2004
本文編號:3574697
本文鏈接:http://www.sikaile.net/jingjilunwen/jinrongzhengquanlunwen/3574697.html
教材專著