天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

法律文書中的要素識別方法研究

發(fā)布時間:2021-08-07 17:50
  近些年來,隨著自然語言處理技術(shù)的不斷發(fā)展,以及面向裁判文書的司法大數(shù)據(jù)不斷公開,如何將人工智能技術(shù)應用于司法領域,以提高司法人員在案件處理環(huán)節(jié)的效率逐漸成為法律智能的研究熱點。法律文書中包含豐富的案情要素信息,通過對法律文書要素的抽取,可以更快速、便捷地輔助法官獲取所需信息,提高法官辦案效率。本文針對法律文書要素識別方法開展研究,主要研究工作如下:(1)法律文書基本要素識別。法律文書基本要素是指法律文書共有的案件基本信息,例如,案號、證據(jù)名、證實內(nèi)容等,可在法律文書中直接抽取。本文依據(jù)證據(jù)名和證實內(nèi)容字符長度較長,且兩種基本要素間關聯(lián)性強的特點,提出了基于JCWA-DLSTM的法律文書基本要素識別方法。利用預訓練的字級語言模型獲取包含字符上下文的詞表示,以減小分詞錯誤帶來的影響。同時,利用自注意力機制,捕獲詞級間的依賴關系,建立基本要素件的關聯(lián)性,實現(xiàn)法律文書基本要素的識別。本文所提出的方法與基線方法的實驗結(jié)果表明,JCWA-DLSTM方法的F1值達到了91.70%,明顯優(yōu)于基線方法。所提出的方法有助于法律文書基本要素識別。(2)法律文書核心要素識別。核心要素是指法律文書中的重要事實描... 

【文章來源】:山西大學山西省

【文章頁數(shù)】:69 頁

【學位級別】:碩士

【部分圖文】:

法律文書中的要素識別方法研究


放縮點積注意力機制(,,)()

序列,詞表,字符


法律文書中的要素識別方法研究14數(shù)。2.3.2比較實驗設置為了驗證本章方法的有效性,設置了以下八個基準實驗:(1)B-LSTM-CRF由于雙向LSTM可以有效地利用前向和后向的信息,同時CRF考慮在句子級進行解碼,Huang[17]等人提出一種B-LSTM-CRF的命名實體識別模型。該模型首先將句子中的每個詞向量化表示,然后輸入到雙向LSTM中,得到每個詞隱層表示,該表示包含當前詞的上下文信息,最后將得到的隱層表示輸入到CRF層,在句子級聯(lián)合解碼得到標簽序列。(2)CNN-LSTM-CRFB-LSTM-CRF方法依賴詞嵌入的質(zhì)量,同時存在未登錄詞問題,Ma[11]等人在B-LSTM-CRF方法上進行改進,在2016年提出一種基于CNN-LSTM-CRF的端到端命名實體識別模型。由于CNN可以有效地抽取單詞的形態(tài)信息(如單詞的前綴和后綴),該模型首先采用CNN得到字符級詞表示,具體結(jié)構(gòu)如圖2.4所示。然后將得到的詞表示和訓練好的詞嵌入向量聯(lián)合輸入到雙向LSTM,之后的操作與B-LSTM-CRF方法一致。圖2.4CNN抽取字符級詞表示(3)LSTM-LSTM-CRF該方法與CNN-LSTM-CRF方法類似,僅僅將字符級的CNN替換成了LSTM,其他的保持不變。(4)Lattice-LSTM

數(shù)據(jù)集,標簽,注意力,文本


法律文書中的要素識別方法研究32(1)Labor數(shù)據(jù)集的Macro-F1值整體低于Divorce數(shù)據(jù)集的Macro-F1值,主要原因是Labor數(shù)據(jù)集的稀有標簽樣本數(shù)量明顯少于Divorce數(shù)據(jù)集的稀有標簽樣本數(shù)量,學習到的特定標簽的特征不如Divorce數(shù)據(jù)集豐富,從而導致稀有標簽不能被有效識別。(2)Labor數(shù)據(jù)集的Hammingloss值整體低于Divorce數(shù)據(jù)集的Hammingloss值,主要原因是Hammingloss反映的是平均不正確預測率,而Labor數(shù)據(jù)集的稀有標簽樣本數(shù)量明顯少于Divorce數(shù)據(jù)集的稀有標簽樣本數(shù)量,少量稀有標簽的預測錯誤對Hammingloss影響不大。表3.5不同方法在Loan數(shù)據(jù)集上的實驗結(jié)果模型Hammingloss(-)Macro-F1(+)Micro-F1(+)SGM0.0209040.4283.36SGM+GE0.0179941.6685.24MU4MLC0.0183241.0984.95Seq2set0.1723541.9885.23LSAN0.0163548.5985.19HIAN(our)0.0153356.7785.99不同方法在Loan數(shù)據(jù)集上的實驗結(jié)果如表3.5所示,與在前兩個數(shù)據(jù)集上的實驗結(jié)果相似,本章提出的HIAN方法在三個指標上也優(yōu)于其他的基線方法,說明本章提出的方法對法律文書要素識別是有效的。3.4.2詞注意力可視化為了說明詞注意力交互的有效性,在三個數(shù)據(jù)集分別選取一個樣本,并將其詞注意力進行了可視化,如圖3.2、圖3.3和圖3.4所示。圖3.2(a)Divorce數(shù)據(jù)集文本與標簽詞注意力圖

【參考文獻】:
期刊論文
[1]基于CNN-BLSTM-CRF模型的生物醫(yī)學命名實體識別[J]. 李麗雙,郭元凱.  中文信息學報. 2018(01)
[2]基于句法路徑的情感評價單元識別[J]. 趙妍妍,秦兵,車萬翔,劉挺.  軟件學報. 2011(05)
[3]信息抽取研究綜述[J]. 李保利,陳玉忠,俞士汶.  計算機工程與應用. 2003(10)

碩士論文
[1]基于法律的知識圖譜構(gòu)建[D]. 鄒愛玲.電子科技大學 2019
[2]司法文書法律要素提取方法的研究與實現(xiàn)[D]. 王林木.東南大學 2018
[3]面向法律文書的中文命名實體識別方法研究[D]. 王禮敏.蘇州大學 2018
[4]面向中文法律文本的命名實體識別研究[D]. 謝云.南京師范大學 2018
[5]基于隱式馬爾科夫模型的法律命名實體識別模型的設計與應用[D]. 周曉輝.華南理工大學 2017



本文編號:3328254

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/shoufeilunwen/xixikjs/3328254.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶af375***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com