面向證券市場(chǎng)行情預(yù)測(cè)的文本表示學(xué)習(xí)關(guān)鍵技術(shù)研究
發(fā)布時(shí)間:2021-11-18 06:25
經(jīng)過(guò)多年的發(fā)展,證券行業(yè)積累大量的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。證券行業(yè)大數(shù)據(jù)在給市場(chǎng)參與者提供更加豐富和全面的信息的同時(shí),也帶來(lái)大數(shù)據(jù)分析和處理的新挑戰(zhàn)。傳統(tǒng)的依靠人對(duì)海量數(shù)據(jù)閱讀分析并做出投資決策的模式在大數(shù)據(jù)時(shí)代已經(jīng)變得不再現(xiàn)實(shí)。將機(jī)器智能分析逐漸代替人工分析已經(jīng)成為行業(yè)未來(lái)發(fā)展的一大趨勢(shì)。文本的表示是智能分析的關(guān)鍵步驟,前人的研究通過(guò)設(shè)計(jì)特征模板,從原始數(shù)據(jù)中提取特征表示作為機(jī)器學(xué)習(xí)算法的輸入。這類特征模板的設(shè)計(jì)需要人工參與,費(fèi)時(shí)費(fèi)力,且常常需要領(lǐng)域?qū)<业闹R(shí)。同時(shí),對(duì)于較復(fù)雜的應(yīng)用,特征的維度可能非常高(高達(dá)千萬(wàn)維)且稀疏,且這些特征往往只能運(yùn)用于特定的領(lǐng)域,無(wú)法很好地在不同應(yīng)用和語(yǔ)言中進(jìn)行遷移。證券市場(chǎng)行情的變化高度復(fù)雜,需要對(duì)信息的深度理解;谏疃壬窠(jīng)網(wǎng)絡(luò)的文本表示學(xué)習(xí)相對(duì)于基于離散特征的模型能夠更好地表示文本語(yǔ)義,且具有強(qiáng)大的非線性擬合能力,能夠更好地刻畫(huà)特征與學(xué)習(xí)目標(biāo)之間的聯(lián)系。如何將其運(yùn)用于證券市場(chǎng)行情預(yù)測(cè)是一個(gè)非常值得深入研究和探索的課題。然而相關(guān)工作才剛剛起步,還存在預(yù)測(cè)模型建立在淺層的文本理解基礎(chǔ)上、沒(méi)有有效融合知識(shí)、模型的可解釋性不足等問(wèn)題。針對(duì)以上問(wèn)題,我們提出...
【文章來(lái)源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁(yè)數(shù)】:127 頁(yè)
【學(xué)位級(jí)別】:博士
【部分圖文】:
上下文相關(guān)的詞向量模型ELMo,GPT和BERT
第1章緒論圖1-2循環(huán)神經(jīng)網(wǎng)絡(luò),遞歸神經(jīng)網(wǎng)絡(luò)以及卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)Fig.1-2Thestructureofrecurrentneuralnetwork,recursiveneuralnetworkandconvolutionalneuralnetwork.子序列,送入網(wǎng)絡(luò)的隱含層后計(jì)算的到當(dāng)前輸入的隱含狀態(tài)。循環(huán)神經(jīng)的網(wǎng)絡(luò)的每一步可以形式化為ht=fθ(xt,ht1),其中xt表示當(dāng)前的輸入,ht1表示上一個(gè)隱含層的狀態(tài),ht表示當(dāng)前輸入對(duì)應(yīng)的隱含層,f為隱含層的計(jì)算函數(shù),θ表示函數(shù)中的可訓(xùn)練參數(shù)。從循環(huán)神經(jīng)網(wǎng)絡(luò)的定義可以看出,當(dāng)前的隱含狀態(tài)ht不僅依賴于當(dāng)前的輸入xt,也依賴于上一步的隱含狀態(tài)ht1。同時(shí),網(wǎng)絡(luò)的參數(shù)是全局共享的。理論上,網(wǎng)絡(luò)最后輸出的隱含狀態(tài)包含了整個(gè)句子的信息,可以作為句子的向量表示運(yùn)用在下游任務(wù)中。當(dāng)然,對(duì)序列所有的隱層狀態(tài)進(jìn)行平均池化、最大池化也是常用的獲得句子表示的方法。簡(jiǎn)單的循環(huán)神經(jīng)網(wǎng)絡(luò)在處理較長(zhǎng)序列時(shí),容易a)長(zhǎng)短期記憶網(wǎng)絡(luò)的結(jié)構(gòu)a)Thestructureoflongshort-termmemorynetwork.b)門(mén)限循環(huán)單元的結(jié)構(gòu)b)Thestructureofgatedrecurrentunit.圖1-3LSTM和GRU示意圖Fig.1-3ThestructureofLSTMandGRU.-7-
第1章緒論圖1-4層次的文檔表示網(wǎng)絡(luò)的結(jié)構(gòu)Fig.1-4Thearchitectureofhierarchicalneuralnetworkfordocumentrepresentation.之后再利用篇章向量和句子向量解碼重建原來(lái)的篇章。通過(guò)這種訓(xùn)練方法,它們使得模型具有了編碼篇章句法和語(yǔ)義信息的能力。Tang等[50]提出了基于GRU的篇章表示模型,如圖1-4a)所示。模型中使用兩層結(jié)構(gòu)。底層的為L(zhǎng)STM或CNN,負(fù)責(zé)詞組合成句子的語(yǔ)義表示。上層的雙向GRU將句子語(yǔ)義通過(guò)平均池化組合成篇章語(yǔ)義。在Tang等[50]的基礎(chǔ)上,Yang等[51]提出了層次注意力網(wǎng)絡(luò)(HierarchicalAttentionNetwork),如圖1-4b)所示。Tang等[50]認(rèn)為每個(gè)詞和每個(gè)句子的重要性是相同的,因此使用的是對(duì)隱含層向量進(jìn)行平均池化的方法。而Yang等[51]的層次注意力網(wǎng)絡(luò)則認(rèn)為每個(gè)詞,每個(gè)句子的重要性不一樣,因此通過(guò)注意力機(jī)制[4]對(duì)詞和句子賦予了不同的權(quán)重。上面提到的三種方法都是通過(guò)順序的方式建模句子之間的關(guān)系,Ji等[52]提出基于篇章結(jié)構(gòu)的篇章建模方法。其首先利用篇章結(jié)構(gòu)解析器得到篇章中句子之間的關(guān)系,之后利用遞歸神經(jīng)網(wǎng)絡(luò)結(jié)合篇章關(guān)系對(duì)篇章進(jìn)行建模。在多個(gè)篇章級(jí)文本分類的實(shí)驗(yàn)結(jié)果表明,結(jié)合篇章結(jié)構(gòu)的方法取得了更好的效果。同時(shí)他們也發(fā)現(xiàn)篇章結(jié)構(gòu)解析器的準(zhǔn)確率對(duì)篇章分類的效果有較大的影響。1.2.2基于社會(huì)媒體的市場(chǎng)行情預(yù)測(cè)近年來(lái),隨著社會(huì)媒體的興起,各個(gè)社會(huì)媒體平臺(tái)上用戶生成的內(nèi)容呈爆炸式地增長(zhǎng)。社會(huì)媒體涵蓋的范圍非常廣泛,既包括發(fā)布個(gè)人信息的社交網(wǎng)絡(luò),也包括論壇以及博客等。人們?cè)谶@些平臺(tái)上分享自己的生活,發(fā)表評(píng)論、意見(jiàn)以及觀點(diǎn)。由于社會(huì)媒體的這些特點(diǎn),其常被作為現(xiàn)實(shí)世界在網(wǎng)絡(luò)虛擬世界的一個(gè)映射。因此,許多已有工作通過(guò)分析社會(huì)媒體中用戶生成的內(nèi)容來(lái)預(yù)測(cè)現(xiàn)實(shí)世界中的一?
【參考文獻(xiàn)】:
期刊論文
[1]知識(shí)圖譜研究進(jìn)展[J]. 漆桂林,高桓,吳天星. 情報(bào)工程. 2017(01)
[2]深度學(xué)習(xí)的昨天、今天和明天[J]. 余凱,賈磊,陳雨強(qiáng),徐偉. 計(jì)算機(jī)研究與發(fā)展. 2013(09)
本文編號(hào):3502385
【文章來(lái)源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁(yè)數(shù)】:127 頁(yè)
【學(xué)位級(jí)別】:博士
【部分圖文】:
上下文相關(guān)的詞向量模型ELMo,GPT和BERT
第1章緒論圖1-2循環(huán)神經(jīng)網(wǎng)絡(luò),遞歸神經(jīng)網(wǎng)絡(luò)以及卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)Fig.1-2Thestructureofrecurrentneuralnetwork,recursiveneuralnetworkandconvolutionalneuralnetwork.子序列,送入網(wǎng)絡(luò)的隱含層后計(jì)算的到當(dāng)前輸入的隱含狀態(tài)。循環(huán)神經(jīng)的網(wǎng)絡(luò)的每一步可以形式化為ht=fθ(xt,ht1),其中xt表示當(dāng)前的輸入,ht1表示上一個(gè)隱含層的狀態(tài),ht表示當(dāng)前輸入對(duì)應(yīng)的隱含層,f為隱含層的計(jì)算函數(shù),θ表示函數(shù)中的可訓(xùn)練參數(shù)。從循環(huán)神經(jīng)網(wǎng)絡(luò)的定義可以看出,當(dāng)前的隱含狀態(tài)ht不僅依賴于當(dāng)前的輸入xt,也依賴于上一步的隱含狀態(tài)ht1。同時(shí),網(wǎng)絡(luò)的參數(shù)是全局共享的。理論上,網(wǎng)絡(luò)最后輸出的隱含狀態(tài)包含了整個(gè)句子的信息,可以作為句子的向量表示運(yùn)用在下游任務(wù)中。當(dāng)然,對(duì)序列所有的隱層狀態(tài)進(jìn)行平均池化、最大池化也是常用的獲得句子表示的方法。簡(jiǎn)單的循環(huán)神經(jīng)網(wǎng)絡(luò)在處理較長(zhǎng)序列時(shí),容易a)長(zhǎng)短期記憶網(wǎng)絡(luò)的結(jié)構(gòu)a)Thestructureoflongshort-termmemorynetwork.b)門(mén)限循環(huán)單元的結(jié)構(gòu)b)Thestructureofgatedrecurrentunit.圖1-3LSTM和GRU示意圖Fig.1-3ThestructureofLSTMandGRU.-7-
第1章緒論圖1-4層次的文檔表示網(wǎng)絡(luò)的結(jié)構(gòu)Fig.1-4Thearchitectureofhierarchicalneuralnetworkfordocumentrepresentation.之后再利用篇章向量和句子向量解碼重建原來(lái)的篇章。通過(guò)這種訓(xùn)練方法,它們使得模型具有了編碼篇章句法和語(yǔ)義信息的能力。Tang等[50]提出了基于GRU的篇章表示模型,如圖1-4a)所示。模型中使用兩層結(jié)構(gòu)。底層的為L(zhǎng)STM或CNN,負(fù)責(zé)詞組合成句子的語(yǔ)義表示。上層的雙向GRU將句子語(yǔ)義通過(guò)平均池化組合成篇章語(yǔ)義。在Tang等[50]的基礎(chǔ)上,Yang等[51]提出了層次注意力網(wǎng)絡(luò)(HierarchicalAttentionNetwork),如圖1-4b)所示。Tang等[50]認(rèn)為每個(gè)詞和每個(gè)句子的重要性是相同的,因此使用的是對(duì)隱含層向量進(jìn)行平均池化的方法。而Yang等[51]的層次注意力網(wǎng)絡(luò)則認(rèn)為每個(gè)詞,每個(gè)句子的重要性不一樣,因此通過(guò)注意力機(jī)制[4]對(duì)詞和句子賦予了不同的權(quán)重。上面提到的三種方法都是通過(guò)順序的方式建模句子之間的關(guān)系,Ji等[52]提出基于篇章結(jié)構(gòu)的篇章建模方法。其首先利用篇章結(jié)構(gòu)解析器得到篇章中句子之間的關(guān)系,之后利用遞歸神經(jīng)網(wǎng)絡(luò)結(jié)合篇章關(guān)系對(duì)篇章進(jìn)行建模。在多個(gè)篇章級(jí)文本分類的實(shí)驗(yàn)結(jié)果表明,結(jié)合篇章結(jié)構(gòu)的方法取得了更好的效果。同時(shí)他們也發(fā)現(xiàn)篇章結(jié)構(gòu)解析器的準(zhǔn)確率對(duì)篇章分類的效果有較大的影響。1.2.2基于社會(huì)媒體的市場(chǎng)行情預(yù)測(cè)近年來(lái),隨著社會(huì)媒體的興起,各個(gè)社會(huì)媒體平臺(tái)上用戶生成的內(nèi)容呈爆炸式地增長(zhǎng)。社會(huì)媒體涵蓋的范圍非常廣泛,既包括發(fā)布個(gè)人信息的社交網(wǎng)絡(luò),也包括論壇以及博客等。人們?cè)谶@些平臺(tái)上分享自己的生活,發(fā)表評(píng)論、意見(jiàn)以及觀點(diǎn)。由于社會(huì)媒體的這些特點(diǎn),其常被作為現(xiàn)實(shí)世界在網(wǎng)絡(luò)虛擬世界的一個(gè)映射。因此,許多已有工作通過(guò)分析社會(huì)媒體中用戶生成的內(nèi)容來(lái)預(yù)測(cè)現(xiàn)實(shí)世界中的一?
【參考文獻(xiàn)】:
期刊論文
[1]知識(shí)圖譜研究進(jìn)展[J]. 漆桂林,高桓,吳天星. 情報(bào)工程. 2017(01)
[2]深度學(xué)習(xí)的昨天、今天和明天[J]. 余凱,賈磊,陳雨強(qiáng),徐偉. 計(jì)算機(jī)研究與發(fā)展. 2013(09)
本文編號(hào):3502385
本文鏈接:http://www.sikaile.net/guanlilunwen/bankxd/3502385.html
最近更新
教材專著