基于深度學習的金融知識圖譜系統(tǒng)研究
發(fā)布時間:2021-10-24 22:08
金融知識圖譜是以圖的結構展示和存儲金融領域?qū)嶓w及其關系的領域知識圖譜。構建金融知識圖譜的關鍵是從公告、研報等文本數(shù)據(jù)中抽取實體及關系。有監(jiān)督學習的關系識別模型可以有效地提取語義特征但是需要大量的已標注語料。眾包構建和遠程監(jiān)督方法是語料標注的常用方法,但遠程監(jiān)督方法會引入噪聲數(shù)據(jù),如何改進遠程監(jiān)督以減少噪聲數(shù)據(jù)是本文需要解決的問題之一。此外,公告和研報等金融領域的語料多為長語句,對這些語料的處理存在長距離依賴和長語句編碼語義丟失的問題,如何選擇合適的算法解決這些問題以構建關系識別模型,是本文需要解決的問題之二。針對上述問題,本文以實驗室承擔的實際項目為背景,在對知識圖譜構建技術、深度學習、關系識別等相關技術深入研究的基礎上,提出并實現(xiàn)了基于上下文相似度降噪的改進遠程監(jiān)督方法(簡稱CSD)以及基于BiLSTM和注意力機制的關系識別模型(簡稱DRCM)。結合CSD方法和DRCM模型,本文設計并實現(xiàn)了一個金融知識圖譜原型系統(tǒng)(簡稱FKGS)。FKGS包括語料標注、關系識別、實體關系存儲等功能模塊。測試情況表明,該系統(tǒng)是可行及有效的。本文的工作要點與創(chuàng)新點如下:1)CSD及其語料標注。遠程監(jiān)督標...
【文章來源】:上海交通大學上海市 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:83 頁
【學位級別】:碩士
【部分圖文】:
知識圖譜邏輯架構
上海交通大學碩士學位論文-5-表2-1現(xiàn)有知識圖譜的覆蓋范圍Table2-1Coverageofexistingknowledgegraph知識圖譜構建方式數(shù)據(jù)來源語言范圍Cyc人工—英文通用WordNet人工—英文通用Freebase半自動百科英文通用GeoNames半自動百科多語言領域Dbpedia半自動百科多語言通用YAGO自動百科多語言通用OpenIE自動純文本英文通用BabelNet自動知識圖譜多語言通用WikiData半自動百科多語言通用搜狗知立方自動百科中文通用百度知心自動百科中文通用CN-DBpedia自動百科中文通用根據(jù)覆蓋范圍而言,知識圖譜可分為通用知識圖譜和領域知識圖譜。通用知識圖譜注重廣度,希望可以覆蓋各個領域的知識,包含更多的實體。但是和單一領域的知識圖譜相比,缺少具體的領域知識,所以知識的深度往往不夠。目前大多數(shù)知名度較高的知識圖譜都是通用知識圖譜,如Freebase、DBpedia、Yago等都是基于百科數(shù)據(jù)構建。圖2-2通用知識圖譜構建框架Fig.2-2Generalknowledgegraphconstructionframework
上海交通大學碩士學位論文-7-多、識別難度最大、對分詞效果影響最大問題。同時NER也是關系抽娶事件抽娶知識圖譜、機器翻譯、問答系統(tǒng)等諸多任務的基矗圖2-3命名實體識別技術發(fā)展歷程Fig.2-3Developmentprocessofnamedentityrecognition命名實體識別技術的發(fā)展歷程如圖2-3所示。在基于機器學習的方法中,NER被當作序列標注問題。利用大規(guī)模語料來學習出標注模型,從而對句子的各個位置進行標注[4]。NER任務中的常用模型包括生成式模型HMM[5]、判別式模型CRF[6]以及隱馬爾可夫模型[7]等,條件隨機場(ConditionalRandomField,CRF)是其中的主流模型[8]。它的目標函數(shù)不僅考慮輸入的狀態(tài)特征函數(shù),而且還包含了標簽轉(zhuǎn)移特征函數(shù)。在訓練時可以使用SGD學習模型參數(shù)。在已知模型時,給定輸入序列預測輸出序列即求使目標函數(shù)最大化的最優(yōu)序列,是一個動態(tài)規(guī)劃問題,可以使用Viterbi算法解碼來得到最優(yōu)標簽序列。CRF的優(yōu)點在于其為一個位置進行標注的過程中可以利用豐富的內(nèi)部及上下文特征信息。近年來,隨著硬件計算能力的發(fā)展以及詞的分布式表示(wordembedding)[9]的提出,神經(jīng)網(wǎng)絡可以有效處理許多NLP任務。文獻[10]最早將神經(jīng)網(wǎng)絡用于命名實體識別領域,作者提出了窗口方法和句子方法兩種網(wǎng)絡結構。前者使用預測詞的上下文窗口作為神經(jīng)網(wǎng)絡的輸入,后者以整個句子作為當前詞的輸入,通過位置特征區(qū)分其中的每個詞,然后使用卷積層。后來隨著注意力機制的流行,Rei等人[11]提出了在RNN-CRF模型的基礎上,對于詞向量和字向量的拼接進行了改進,通過注意力機制將原來的拼接方式改進為權重求和,利用神經(jīng)網(wǎng)絡來學習注意力層的權值。因為深度學習需要大量訓練語料才可以得到效果較好的模型,因此目前也有部分學者研究如何使用少量標注數(shù)據(jù)進?
【參考文獻】:
期刊論文
[1]維基百科語義背景知識的共指消解研究[J]. 張貴軍. 信息通信. 2018(01)
[2]深度學習研究綜述[J]. 馬瑜璠. 讀書文摘. 2017(06)
[3]知識圖譜技術綜述[J]. 徐增林,盛泳潘,賀麗榮,王雅芳. 電子科技大學學報. 2016(04)
[4]地理數(shù)據(jù)空間本體構建及其在數(shù)據(jù)檢索中的應用[J]. 王東旭,諸云強,潘鵬,羅侃,侯志偉. 地球信息科學學報. 2016(04)
[5]知識圖譜構建技術綜述[J]. 劉嶠,李楊,段宏,劉瑤,秦志光. 計算機研究與發(fā)展. 2016(03)
[6]基于核函數(shù)中文關系自動抽取系統(tǒng)的實現(xiàn)[J]. 劉克彬,李芳,劉磊,韓穎. 計算機研究與發(fā)展. 2007(08)
本文編號:3456073
【文章來源】:上海交通大學上海市 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:83 頁
【學位級別】:碩士
【部分圖文】:
知識圖譜邏輯架構
上海交通大學碩士學位論文-5-表2-1現(xiàn)有知識圖譜的覆蓋范圍Table2-1Coverageofexistingknowledgegraph知識圖譜構建方式數(shù)據(jù)來源語言范圍Cyc人工—英文通用WordNet人工—英文通用Freebase半自動百科英文通用GeoNames半自動百科多語言領域Dbpedia半自動百科多語言通用YAGO自動百科多語言通用OpenIE自動純文本英文通用BabelNet自動知識圖譜多語言通用WikiData半自動百科多語言通用搜狗知立方自動百科中文通用百度知心自動百科中文通用CN-DBpedia自動百科中文通用根據(jù)覆蓋范圍而言,知識圖譜可分為通用知識圖譜和領域知識圖譜。通用知識圖譜注重廣度,希望可以覆蓋各個領域的知識,包含更多的實體。但是和單一領域的知識圖譜相比,缺少具體的領域知識,所以知識的深度往往不夠。目前大多數(shù)知名度較高的知識圖譜都是通用知識圖譜,如Freebase、DBpedia、Yago等都是基于百科數(shù)據(jù)構建。圖2-2通用知識圖譜構建框架Fig.2-2Generalknowledgegraphconstructionframework
上海交通大學碩士學位論文-7-多、識別難度最大、對分詞效果影響最大問題。同時NER也是關系抽娶事件抽娶知識圖譜、機器翻譯、問答系統(tǒng)等諸多任務的基矗圖2-3命名實體識別技術發(fā)展歷程Fig.2-3Developmentprocessofnamedentityrecognition命名實體識別技術的發(fā)展歷程如圖2-3所示。在基于機器學習的方法中,NER被當作序列標注問題。利用大規(guī)模語料來學習出標注模型,從而對句子的各個位置進行標注[4]。NER任務中的常用模型包括生成式模型HMM[5]、判別式模型CRF[6]以及隱馬爾可夫模型[7]等,條件隨機場(ConditionalRandomField,CRF)是其中的主流模型[8]。它的目標函數(shù)不僅考慮輸入的狀態(tài)特征函數(shù),而且還包含了標簽轉(zhuǎn)移特征函數(shù)。在訓練時可以使用SGD學習模型參數(shù)。在已知模型時,給定輸入序列預測輸出序列即求使目標函數(shù)最大化的最優(yōu)序列,是一個動態(tài)規(guī)劃問題,可以使用Viterbi算法解碼來得到最優(yōu)標簽序列。CRF的優(yōu)點在于其為一個位置進行標注的過程中可以利用豐富的內(nèi)部及上下文特征信息。近年來,隨著硬件計算能力的發(fā)展以及詞的分布式表示(wordembedding)[9]的提出,神經(jīng)網(wǎng)絡可以有效處理許多NLP任務。文獻[10]最早將神經(jīng)網(wǎng)絡用于命名實體識別領域,作者提出了窗口方法和句子方法兩種網(wǎng)絡結構。前者使用預測詞的上下文窗口作為神經(jīng)網(wǎng)絡的輸入,后者以整個句子作為當前詞的輸入,通過位置特征區(qū)分其中的每個詞,然后使用卷積層。后來隨著注意力機制的流行,Rei等人[11]提出了在RNN-CRF模型的基礎上,對于詞向量和字向量的拼接進行了改進,通過注意力機制將原來的拼接方式改進為權重求和,利用神經(jīng)網(wǎng)絡來學習注意力層的權值。因為深度學習需要大量訓練語料才可以得到效果較好的模型,因此目前也有部分學者研究如何使用少量標注數(shù)據(jù)進?
【參考文獻】:
期刊論文
[1]維基百科語義背景知識的共指消解研究[J]. 張貴軍. 信息通信. 2018(01)
[2]深度學習研究綜述[J]. 馬瑜璠. 讀書文摘. 2017(06)
[3]知識圖譜技術綜述[J]. 徐增林,盛泳潘,賀麗榮,王雅芳. 電子科技大學學報. 2016(04)
[4]地理數(shù)據(jù)空間本體構建及其在數(shù)據(jù)檢索中的應用[J]. 王東旭,諸云強,潘鵬,羅侃,侯志偉. 地球信息科學學報. 2016(04)
[5]知識圖譜構建技術綜述[J]. 劉嶠,李楊,段宏,劉瑤,秦志光. 計算機研究與發(fā)展. 2016(03)
[6]基于核函數(shù)中文關系自動抽取系統(tǒng)的實現(xiàn)[J]. 劉克彬,李芳,劉磊,韓穎. 計算機研究與發(fā)展. 2007(08)
本文編號:3456073
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3456073.html
最近更新
教材專著