面向司法判決書案情的主題事件抽取研究
發(fā)布時間:2021-09-19 01:08
在司法公開的背景下,互聯(lián)網(wǎng)上發(fā)布了海量真實有效的司法判決書。司法判決書案情是對案件細節(jié)的描述,富含豐富的行業(yè)知識和專業(yè)智慧。然而,司法判決書的數(shù)量龐大,內(nèi)容冗長、多樣且非結(jié)構(gòu)等特征,導(dǎo)致其數(shù)據(jù)價值密度低下,難以有效支持決策。司法判決書的結(jié)構(gòu)化處理是后續(xù)分析的重要基礎(chǔ),面向司法判決書案情的主題事件抽取任務(wù)開展研究具有重要的理論價值和較好的應(yīng)用前景。本文主要研究工作如下:(1)提出一種觸發(fā)詞與屬性值對的聯(lián)合抽取方法。該方法首先利用基于熵的特征排序構(gòu)建觸發(fā)詞表。然后基于條件隨機場,訓(xùn)練觸發(fā)詞識別模型,用于確定二元語義屬性的取值;訓(xùn)練觸發(fā)詞、屬性和屬性值的聯(lián)合標記模型,用于識別字符串屬性及其取值。實驗結(jié)果顯示,與傳統(tǒng)方法相比,所提出的方法能夠抽取二元語義屬性值對,并且對字符串屬性值對的抽取準確率、召回率和F值均有提高,同時抽取所用平均時間明顯降低。(2)由于訓(xùn)練條件隨機場模型需要大量的標記語料,司法判決書的標記語料少且依賴人工標注。為了減少人工標注的工作,通過利用未標記語料,我們提出一種基于tri-training和CRF的元事件抽取方法。實驗結(jié)果顯示:該方法能夠降低訓(xùn)練模型所需標記語料的數(shù)量...
【文章來源】:合肥工業(yè)大學(xué)安徽省 211工程院校 教育部直屬院校
【文章頁數(shù)】:63 頁
【學(xué)位級別】:碩士
【部分圖文】:
司法判決書案情信息結(jié)構(gòu)化處理系統(tǒng)框架圖
系統(tǒng)的主要操作流程如下:a. 當(dāng)用戶要對一篇司法判決書的案情主題進行內(nèi)容抽取時,首先點擊圖中的“選擇文件”按鈕,選中并上傳所需要處理的司法判決書(txt 格式),最多可上傳10 個;b. 待文件上傳后,點擊“開始處理”按鈕,對司法判決書案情部分的抽取結(jié)果就會顯現(xiàn)在右邊文本框中。表 5. 1 開發(fā)工具表Tab 5.1 Devlopment tools軟件/工具包 版本 說明JDK 1.8 JDK 是 Java 的核心,包括 java 的基礎(chǔ)類庫和 java 工具Eclipse 4.6.3 一個集成開發(fā)環(huán)境mySql 5.6 一個關(guān)系型數(shù)據(jù)庫管理系統(tǒng)ltp4j 3.3.2 ltp 工具的 java 實現(xiàn)包,可以用于文本的預(yù)處理
【參考文獻】:
期刊論文
[1]基于分歧的半監(jiān)督學(xué)習(xí)[J]. 周志華. 自動化學(xué)報. 2013(11)
[2]審判案例自動抽取與標注模型研究[J]. 佘貴清,張永安. 現(xiàn)代圖書情報技術(shù). 2013(06)
[3]事件抽取技術(shù)研究綜述[J]. 高強,游宏梁. 情報理論與實踐. 2013(04)
[4]基于依存分析的事件識別[J]. 付劍鋒,劉宗田,付雪峰,周文,仲兆滿. 計算機科學(xué). 2009(11)
[5]中文事件抽取技術(shù)研究[J]. 趙妍妍,秦兵,車萬翔,劉挺. 中文信息學(xué)報. 2008(01)
碩士論文
[1]基于主題的中文事件抽取技術(shù)研究及應(yīng)用[D]. 吳剛.蘇州大學(xué) 2009
本文編號:3400699
【文章來源】:合肥工業(yè)大學(xué)安徽省 211工程院校 教育部直屬院校
【文章頁數(shù)】:63 頁
【學(xué)位級別】:碩士
【部分圖文】:
司法判決書案情信息結(jié)構(gòu)化處理系統(tǒng)框架圖
系統(tǒng)的主要操作流程如下:a. 當(dāng)用戶要對一篇司法判決書的案情主題進行內(nèi)容抽取時,首先點擊圖中的“選擇文件”按鈕,選中并上傳所需要處理的司法判決書(txt 格式),最多可上傳10 個;b. 待文件上傳后,點擊“開始處理”按鈕,對司法判決書案情部分的抽取結(jié)果就會顯現(xiàn)在右邊文本框中。表 5. 1 開發(fā)工具表Tab 5.1 Devlopment tools軟件/工具包 版本 說明JDK 1.8 JDK 是 Java 的核心,包括 java 的基礎(chǔ)類庫和 java 工具Eclipse 4.6.3 一個集成開發(fā)環(huán)境mySql 5.6 一個關(guān)系型數(shù)據(jù)庫管理系統(tǒng)ltp4j 3.3.2 ltp 工具的 java 實現(xiàn)包,可以用于文本的預(yù)處理
【參考文獻】:
期刊論文
[1]基于分歧的半監(jiān)督學(xué)習(xí)[J]. 周志華. 自動化學(xué)報. 2013(11)
[2]審判案例自動抽取與標注模型研究[J]. 佘貴清,張永安. 現(xiàn)代圖書情報技術(shù). 2013(06)
[3]事件抽取技術(shù)研究綜述[J]. 高強,游宏梁. 情報理論與實踐. 2013(04)
[4]基于依存分析的事件識別[J]. 付劍鋒,劉宗田,付雪峰,周文,仲兆滿. 計算機科學(xué). 2009(11)
[5]中文事件抽取技術(shù)研究[J]. 趙妍妍,秦兵,車萬翔,劉挺. 中文信息學(xué)報. 2008(01)
碩士論文
[1]基于主題的中文事件抽取技術(shù)研究及應(yīng)用[D]. 吳剛.蘇州大學(xué) 2009
本文編號:3400699
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3400699.html
最近更新
教材專著