年報文本與數(shù)據(jù)分析及可視化的設計與實現(xiàn)
發(fā)布時間:2023-06-23 19:21
企業(yè)年報由大量文本和經濟數(shù)據(jù)構成,這些文本和經濟數(shù)據(jù)一直是我們數(shù)據(jù)分析和文本挖掘中的熱點,如何快速準確的提取這些信息,以及對提取的數(shù)據(jù)進行預測,對文本進行分析是本文研究的重點。在數(shù)據(jù)研究方面本文首先利用LSTM模型,對用戶關心的股票價格及其變化趨勢進行預測,實驗中利用相應的特征比如開盤價,收盤價等和標簽實現(xiàn)了預測任務。通過結果可以觀察到,模型可以預測出未來一段時間的股價走勢,以及預測的股價也和真實值較為貼近。其次,為了更好的捕捉行業(yè)未來的動向,我們進行了股價收益排名預測,因為比起股價,更多用戶更加關心每只股票的收益情況,但是傳統(tǒng)的回歸任務并不能很好的考慮排名中的位置信息,在每次迭代中,不能更好的利用位置信息進行位置排序更新。為了解決這一問題,我們引入了排序學習的方法。結合排序學習的方法,我們提出基于排序學習的股價收益預測模型,實現(xiàn)對股價收益排名的合理預測,實驗結果表明在股價排名預測任務中有顯著的提升效果,并最終在可視化環(huán)節(jié),對預測的排名進行展示。在文本處理方面,首先著手于文本分類實驗,將報表中的財務指標描述類文本從PDF中進行提取,在進行完分詞,去停用詞等預處理后,利用樸素貝葉斯分類器...
【文章頁數(shù)】:54 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 企業(yè)報表文本與數(shù)據(jù)挖掘的研究現(xiàn)狀
1.2 面向排序學習的經濟數(shù)據(jù)預測模型
1.2.1 數(shù)據(jù)提取
1.2.2 數(shù)據(jù)處理
1.2.3 數(shù)據(jù)模型
1.3 年報文本與數(shù)據(jù)分析的研究意義
1.4 論文的整體架構
2 報表數(shù)據(jù)預測
2.1 xgBoost方法
2.2 前饋神經網絡
2.3 LSTM方法
2.4 排序學習方法
2.4.1 Random Forests
2.4.2 Rank Net
2.4.3 MART
2.4.4 Lambda MART
2.5 本章小結
3 報表文本處理
3.1 樸素貝葉斯文本分類
3.2 序列標注與實體識別
3.3 基于依存分析的中文實體關系抽取
3.4 本章小結
4 數(shù)據(jù)分析與文本處理實驗
4.1 股價收益排名預測
4.1.1 特征分析
4.1.2 數(shù)據(jù)標注
4.1.3 數(shù)據(jù)格式
4.1.4 實驗結果及分析
4.2 股價及趨勢預測
4.2.1 數(shù)據(jù)處理
4.2.2 模型構建及訓練
4.2.3 預測結果及分析
4.3 公司盈利虧損文本分類
4.3.1 數(shù)據(jù)準備
4.3.2 文本預處理
4.3.3 權重策略
4.3.4 實驗及結果
4.4 年報文本實體識別
4.4.1 數(shù)據(jù)準備
4.4.2 實體識別實驗
4.4.3 實驗結果及分析
4.5 年報文本關系抽取
4.5.1 數(shù)據(jù)準備
4.5.2 實體關系抽取
4.5.3 實體關系抽取結果及分析
4.6 本章小結
5 可視化設計與實現(xiàn)
5.1 可視化技術實現(xiàn)
5.1.1 前端和數(shù)據(jù)庫
5.1.2 SMM框架
5.1.3 可視化代碼結構
5.2 可視化模塊
5.2.1 基礎數(shù)據(jù)展示
5.2.2 排名預測展示
5.2.3 利潤分類展示
5.2.4 股價及趨勢預測展示
5.2.5 關系圖譜展示
5.3 本章小結
結論
參考文獻
致謝
攻讀碩士學位期間發(fā)表學術論文情況
本文編號:3835169
【文章頁數(shù)】:54 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 企業(yè)報表文本與數(shù)據(jù)挖掘的研究現(xiàn)狀
1.2 面向排序學習的經濟數(shù)據(jù)預測模型
1.2.1 數(shù)據(jù)提取
1.2.2 數(shù)據(jù)處理
1.2.3 數(shù)據(jù)模型
1.3 年報文本與數(shù)據(jù)分析的研究意義
1.4 論文的整體架構
2 報表數(shù)據(jù)預測
2.1 xgBoost方法
2.2 前饋神經網絡
2.3 LSTM方法
2.4 排序學習方法
2.4.1 Random Forests
2.4.2 Rank Net
2.4.3 MART
2.4.4 Lambda MART
2.5 本章小結
3 報表文本處理
3.1 樸素貝葉斯文本分類
3.2 序列標注與實體識別
3.3 基于依存分析的中文實體關系抽取
3.4 本章小結
4 數(shù)據(jù)分析與文本處理實驗
4.1 股價收益排名預測
4.1.1 特征分析
4.1.2 數(shù)據(jù)標注
4.1.3 數(shù)據(jù)格式
4.1.4 實驗結果及分析
4.2 股價及趨勢預測
4.2.1 數(shù)據(jù)處理
4.2.2 模型構建及訓練
4.2.3 預測結果及分析
4.3 公司盈利虧損文本分類
4.3.1 數(shù)據(jù)準備
4.3.2 文本預處理
4.3.3 權重策略
4.3.4 實驗及結果
4.4 年報文本實體識別
4.4.1 數(shù)據(jù)準備
4.4.2 實體識別實驗
4.4.3 實驗結果及分析
4.5 年報文本關系抽取
4.5.1 數(shù)據(jù)準備
4.5.2 實體關系抽取
4.5.3 實體關系抽取結果及分析
4.6 本章小結
5 可視化設計與實現(xiàn)
5.1 可視化技術實現(xiàn)
5.1.1 前端和數(shù)據(jù)庫
5.1.2 SMM框架
5.1.3 可視化代碼結構
5.2 可視化模塊
5.2.1 基礎數(shù)據(jù)展示
5.2.2 排名預測展示
5.2.3 利潤分類展示
5.2.4 股價及趨勢預測展示
5.2.5 關系圖譜展示
5.3 本章小結
結論
參考文獻
致謝
攻讀碩士學位期間發(fā)表學術論文情況
本文編號:3835169
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3835169.html
最近更新
教材專著