NLP及其在法院智能審案系統(tǒng)中的應(yīng)用研究
發(fā)布時(shí)間:2022-01-24 11:18
隨著我國(guó)建設(shè)法制強(qiáng)國(guó)步伐的加快,法院面臨的案件類別、涉案人員、判決結(jié)果等數(shù)據(jù)信息也日益增長(zhǎng)。在法院對(duì)案件進(jìn)行審理的過程中,為了避免相似案情不同判決結(jié)果等重大失誤的發(fā)生,案件審理人員在對(duì)案件做出判決時(shí),需要花費(fèi)很多時(shí)間在閱讀案件筆錄和相關(guān)歷史案件的分析上。這不僅造成了人力、物力的浪費(fèi),而且在這個(gè)過程中難免會(huì)出現(xiàn)一些誤判、漏判的情況,就會(huì)給國(guó)家和人民造成一定的損失;谌嗣穹ㄔ河龅降倪@種問題,本文利用自然語言處理和深度學(xué)習(xí)的技術(shù),根據(jù)法院對(duì)刑事案件案情的文字描述,智能地生成相應(yīng)的判決結(jié)果,并將判決結(jié)果轉(zhuǎn)化為法院的標(biāo)準(zhǔn)裁判文書。法院案件審理人員以此裁判文書作為參考,從而能夠快速準(zhǔn)確地對(duì)案件做出判決,給出公平公正的判決結(jié)果。裁判文書作為法院審判結(jié)果的最終依據(jù),包含了案情描述和判決結(jié)果等內(nèi)容。因此,本文首先利用爬蟲技術(shù),從國(guó)內(nèi)某法院裁判文書網(wǎng)站獲取己公布的近20余萬條裁判文書。然后利用正則表達(dá)式等技術(shù),對(duì)這些文檔內(nèi)的關(guān)鍵信息進(jìn)行提取,建立JSON格式的語料庫。再利用自然語言處理的相關(guān)知識(shí),對(duì)語料進(jìn)行分詞、文本向量化等操作,將其輸入到以深度學(xué)習(xí)為基礎(chǔ)建立的神經(jīng)網(wǎng)絡(luò),經(jīng)過多輪次訓(xùn)練獲得法院判決結(jié)果的...
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:93 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖3-1裁判文書網(wǎng)頁源碼??
??解析,提。龋裕停淘创a中的數(shù)據(jù)。其中的Request庫和BeautifiilSoup庫都可以通??過python自帶的pip工具進(jìn)行安裝。??當(dāng)進(jìn)入某法院網(wǎng)的司法公開欄目的裁判文書頁面,我們首先可以通過鼠標(biāo)選??擇要獲取裁判文書的案件類型,這里選擇刑事案件,其次就可以根據(jù)法院的級(jí)別??從高級(jí)法院到中級(jí)法院再到基層法院,這樣該頁面呈現(xiàn)的就是該法院公布的所有??一審刑事裁判文書了,每一頁共10個(gè)不同案件的裁判文書,每個(gè)裁判文書名稱都??可以點(diǎn)擊進(jìn)入裁判文書的詳情頁面,具體查詢選項(xiàng)如圖3-2所示。??文書公開查洵??法院:fSi高篪?塞號(hào):鑛AM?縫號(hào)??室由;擊入塞囪?罷件類別:?吻刑事?民事心行政?#執(zhí)行??文書堯gh?#判決書?O裁走書?調(diào)解書?Gr決走書?〇支付令??圖3-2根據(jù)法院等級(jí)和案件類型查詢裁判文書??我們首先利用遞歸循環(huán)從裁判文書網(wǎng)的列表頁面,獲取每個(gè)裁判文書詳情頁??面的鏈接地址,然后利用Request庫獲取裁判文書詳情頁面的HTML源碼。??Request庫是一個(gè)優(yōu)雅而簡(jiǎn)單的HTTP庫,它通過偽裝成瀏覽器的頭部信息向目標(biāo)??網(wǎng)站服務(wù)器發(fā)送請(qǐng)求,獲取服務(wù)器返回的頁面內(nèi)容,主要是HTML源碼。??然后使用BeautifUlSoup庫對(duì)HTML源碼進(jìn)行解析。BeautifiilSoup庫是一個(gè)靈??活又方便的網(wǎng)頁解析Python庫,處理效率很高,支持多種解析器,本文使用??htmlparser解析器。通過解析我們就可以獲取網(wǎng)頁的一個(gè)文檔對(duì)象,根據(jù)文檔對(duì)??象就可以讀取標(biāo)簽內(nèi)容了。??最后我們將解析出來的標(biāo)簽內(nèi)容寫入到一個(gè)文本文檔文件中,這個(gè)文檔的名??稱以裁判文書的名稱命名,包括了案件中
013〕佛三糊初字蓄311號(hào)孛念彬受賭塞一?刑事判決書,tort?2019/8/1?10:47?文本文檔??圍(2013)鍵三法刑初字皆312號(hào)激齡受賄塞一宙刑義U戾書.fort?2019/8/1?10:47?文本文檔??圖(2013〕鍵三法初字望33嗎韋植山、羅日方、羅朝義三人^室一宙刑事判凌書.txt?2019/8/1?10:47?文本文檔??圍(2.013)梯三衡K1初字窖345號(hào)刻健敲許勤索案一審刑事判■^書.txt?2019/8/1?10:47?文本文???<?>??圖3-3通過網(wǎng)絡(luò)獲取的txt格式的裁判文書??3.1.3裁判文書語料庫的建立??通過對(duì)這20萬份的裁判文書進(jìn)行研宄分析,我們基本掌握了法院判決文書的??格式和內(nèi)容編排,接下來我們要對(duì)其中的每一份裁判文書進(jìn)行處理,提取其中的??關(guān)鍵信息,完成法院裁判文書語料庫的建立。在這過程主要完成關(guān)鍵信息的定義??和關(guān)鍵fe息提取的方法。??3.1.3.1關(guān)鍵信息的定義??關(guān)鍵信息的選擇直接影響著我們模型的建立方式,是做分類還是做聚類都是??個(gè)問題。本文要實(shí)現(xiàn)從案件詳情到判決結(jié)果的預(yù)測(cè),那么這兩類信息都是要從法??院的裁判文書中提取的。在法院的一審刑事判決書中,有一段文字會(huì)詳細(xì)描述法??院認(rèn)定的案件事實(shí)和情節(jié),其次會(huì)有段文字,寫明根據(jù)查證屬實(shí)的事實(shí)、情節(jié)和??法律規(guī)定,論證被告人是否犯罪,犯什么罪[36],以及最終的刑期等內(nèi)容,也就是??案件的判決結(jié)果。??因此,我們主要從裁判文書中提取兩類信息。一類是法院認(rèn)定的案件詳情描??述,包括了案件的情節(jié)過程和犯罪事實(shí)。另一類是法院作出的判決結(jié)果,判決結(jié)??果又分為判處被告人的罪名、判處被告人的刑期以及依據(jù)的法
【參考文獻(xiàn)】:
期刊論文
[1]基于GRU-Attention的中文文本分類[J]. 孫明敏. 現(xiàn)代信息科技. 2019(03)
[2]自然語言處理的發(fā)展歷史與現(xiàn)狀[J]. 宋一凡. 中國(guó)高新科技. 2019(03)
[3]基于Web的聯(lián)機(jī)手寫漢字識(shí)別仿真系統(tǒng)設(shè)計(jì)[J]. 曲麗娜. 吉林工程技術(shù)師范學(xué)院學(xué)報(bào). 2018(10)
[4]基于集成學(xué)習(xí)的微博用戶轉(zhuǎn)發(fā)行為預(yù)測(cè)[J]. 張效尉,王偉,秦東霞. 河南師范大學(xué)學(xué)報(bào)(自然科學(xué)版). 2018(02)
[5]漢語的語素概念提取與語義構(gòu)詞分析[J]. 劉揚(yáng),林子,康司辰. 中文信息學(xué)報(bào). 2018(02)
[6]基于微服務(wù)架構(gòu)的日志監(jiān)控系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 張振,劉俊艷. 軟件. 2017(11)
[7]面向普通未登錄詞理解的二字詞語義構(gòu)詞研究[J]. 吉志薇,馮敏萱. 中文信息學(xué)報(bào). 2015(05)
[8]信息抽取研究綜述[J]. 郭喜躍,何婷婷. 計(jì)算機(jī)科學(xué). 2015(02)
[9]互聯(lián)網(wǎng)不良信息治理的研究與探討[J]. 劉東鑫,周斯寧,沈軍. 廣東通信技術(shù). 2010(12)
[10]自然語言處理的歷史與現(xiàn)狀[J]. 馮志偉. 中國(guó)外語. 2008(01)
博士論文
[1]現(xiàn)代漢語詞語稱名生成過程研究[D]. 劉曉波.吉林大學(xué) 2019
碩士論文
[1]基于深度學(xué)習(xí)和詞典定義的義原預(yù)測(cè)研究[D]. 張磊.戰(zhàn)略支援部隊(duì)信息工程大學(xué) 2019
[2]基于機(jī)器學(xué)習(xí)的內(nèi)容處理與監(jiān)控系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 李博文.北京交通大學(xué) 2019
[3]基于BPE和Transformer的漢語語音識(shí)別技術(shù)研究[D]. 欒效陽.哈爾濱工業(yè)大學(xué) 2019
[4]面向外骨骼機(jī)器人的智能康復(fù)信息系統(tǒng)的研究與實(shí)現(xiàn)[D]. 賈曉揚(yáng).電子科技大學(xué) 2019
[5]基于寬深度模型的廣告點(diǎn)擊率預(yù)估方法[D]. 林啟迪.華南理工大學(xué) 2019
[6]基于深度學(xué)習(xí)的產(chǎn)品意見挖掘研究[D]. 王彥芳.遼寧師范大學(xué) 2019
[7]中文自動(dòng)文摘關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D]. 張洪榮.哈爾濱工業(yè)大學(xué) 2018
[8]基于集成學(xué)習(xí)的蛋白質(zhì)序列分類問題的研究[D]. 趙欣.電子科技大學(xué) 2018
[9]基于主題相關(guān)圖的中文實(shí)體鏈接技術(shù)研究[D]. 陳依.國(guó)防科技大學(xué) 2017
[10]中文分詞方法在農(nóng)業(yè)搜索中的應(yīng)用研究[D]. 周利軍.四川農(nóng)業(yè)大學(xué) 2015
本文編號(hào):3606477
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:93 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖3-1裁判文書網(wǎng)頁源碼??
??解析,提。龋裕停淘创a中的數(shù)據(jù)。其中的Request庫和BeautifiilSoup庫都可以通??過python自帶的pip工具進(jìn)行安裝。??當(dāng)進(jìn)入某法院網(wǎng)的司法公開欄目的裁判文書頁面,我們首先可以通過鼠標(biāo)選??擇要獲取裁判文書的案件類型,這里選擇刑事案件,其次就可以根據(jù)法院的級(jí)別??從高級(jí)法院到中級(jí)法院再到基層法院,這樣該頁面呈現(xiàn)的就是該法院公布的所有??一審刑事裁判文書了,每一頁共10個(gè)不同案件的裁判文書,每個(gè)裁判文書名稱都??可以點(diǎn)擊進(jìn)入裁判文書的詳情頁面,具體查詢選項(xiàng)如圖3-2所示。??文書公開查洵??法院:fSi高篪?塞號(hào):鑛AM?縫號(hào)??室由;擊入塞囪?罷件類別:?吻刑事?民事心行政?#執(zhí)行??文書堯gh?#判決書?O裁走書?調(diào)解書?Gr決走書?〇支付令??圖3-2根據(jù)法院等級(jí)和案件類型查詢裁判文書??我們首先利用遞歸循環(huán)從裁判文書網(wǎng)的列表頁面,獲取每個(gè)裁判文書詳情頁??面的鏈接地址,然后利用Request庫獲取裁判文書詳情頁面的HTML源碼。??Request庫是一個(gè)優(yōu)雅而簡(jiǎn)單的HTTP庫,它通過偽裝成瀏覽器的頭部信息向目標(biāo)??網(wǎng)站服務(wù)器發(fā)送請(qǐng)求,獲取服務(wù)器返回的頁面內(nèi)容,主要是HTML源碼。??然后使用BeautifUlSoup庫對(duì)HTML源碼進(jìn)行解析。BeautifiilSoup庫是一個(gè)靈??活又方便的網(wǎng)頁解析Python庫,處理效率很高,支持多種解析器,本文使用??htmlparser解析器。通過解析我們就可以獲取網(wǎng)頁的一個(gè)文檔對(duì)象,根據(jù)文檔對(duì)??象就可以讀取標(biāo)簽內(nèi)容了。??最后我們將解析出來的標(biāo)簽內(nèi)容寫入到一個(gè)文本文檔文件中,這個(gè)文檔的名??稱以裁判文書的名稱命名,包括了案件中
013〕佛三糊初字蓄311號(hào)孛念彬受賭塞一?刑事判決書,tort?2019/8/1?10:47?文本文檔??圍(2013)鍵三法刑初字皆312號(hào)激齡受賄塞一宙刑義U戾書.fort?2019/8/1?10:47?文本文檔??圖(2013〕鍵三法初字望33嗎韋植山、羅日方、羅朝義三人^室一宙刑事判凌書.txt?2019/8/1?10:47?文本文檔??圍(2.013)梯三衡K1初字窖345號(hào)刻健敲許勤索案一審刑事判■^書.txt?2019/8/1?10:47?文本文???<?>??圖3-3通過網(wǎng)絡(luò)獲取的txt格式的裁判文書??3.1.3裁判文書語料庫的建立??通過對(duì)這20萬份的裁判文書進(jìn)行研宄分析,我們基本掌握了法院判決文書的??格式和內(nèi)容編排,接下來我們要對(duì)其中的每一份裁判文書進(jìn)行處理,提取其中的??關(guān)鍵信息,完成法院裁判文書語料庫的建立。在這過程主要完成關(guān)鍵信息的定義??和關(guān)鍵fe息提取的方法。??3.1.3.1關(guān)鍵信息的定義??關(guān)鍵信息的選擇直接影響著我們模型的建立方式,是做分類還是做聚類都是??個(gè)問題。本文要實(shí)現(xiàn)從案件詳情到判決結(jié)果的預(yù)測(cè),那么這兩類信息都是要從法??院的裁判文書中提取的。在法院的一審刑事判決書中,有一段文字會(huì)詳細(xì)描述法??院認(rèn)定的案件事實(shí)和情節(jié),其次會(huì)有段文字,寫明根據(jù)查證屬實(shí)的事實(shí)、情節(jié)和??法律規(guī)定,論證被告人是否犯罪,犯什么罪[36],以及最終的刑期等內(nèi)容,也就是??案件的判決結(jié)果。??因此,我們主要從裁判文書中提取兩類信息。一類是法院認(rèn)定的案件詳情描??述,包括了案件的情節(jié)過程和犯罪事實(shí)。另一類是法院作出的判決結(jié)果,判決結(jié)??果又分為判處被告人的罪名、判處被告人的刑期以及依據(jù)的法
【參考文獻(xiàn)】:
期刊論文
[1]基于GRU-Attention的中文文本分類[J]. 孫明敏. 現(xiàn)代信息科技. 2019(03)
[2]自然語言處理的發(fā)展歷史與現(xiàn)狀[J]. 宋一凡. 中國(guó)高新科技. 2019(03)
[3]基于Web的聯(lián)機(jī)手寫漢字識(shí)別仿真系統(tǒng)設(shè)計(jì)[J]. 曲麗娜. 吉林工程技術(shù)師范學(xué)院學(xué)報(bào). 2018(10)
[4]基于集成學(xué)習(xí)的微博用戶轉(zhuǎn)發(fā)行為預(yù)測(cè)[J]. 張效尉,王偉,秦東霞. 河南師范大學(xué)學(xué)報(bào)(自然科學(xué)版). 2018(02)
[5]漢語的語素概念提取與語義構(gòu)詞分析[J]. 劉揚(yáng),林子,康司辰. 中文信息學(xué)報(bào). 2018(02)
[6]基于微服務(wù)架構(gòu)的日志監(jiān)控系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 張振,劉俊艷. 軟件. 2017(11)
[7]面向普通未登錄詞理解的二字詞語義構(gòu)詞研究[J]. 吉志薇,馮敏萱. 中文信息學(xué)報(bào). 2015(05)
[8]信息抽取研究綜述[J]. 郭喜躍,何婷婷. 計(jì)算機(jī)科學(xué). 2015(02)
[9]互聯(lián)網(wǎng)不良信息治理的研究與探討[J]. 劉東鑫,周斯寧,沈軍. 廣東通信技術(shù). 2010(12)
[10]自然語言處理的歷史與現(xiàn)狀[J]. 馮志偉. 中國(guó)外語. 2008(01)
博士論文
[1]現(xiàn)代漢語詞語稱名生成過程研究[D]. 劉曉波.吉林大學(xué) 2019
碩士論文
[1]基于深度學(xué)習(xí)和詞典定義的義原預(yù)測(cè)研究[D]. 張磊.戰(zhàn)略支援部隊(duì)信息工程大學(xué) 2019
[2]基于機(jī)器學(xué)習(xí)的內(nèi)容處理與監(jiān)控系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 李博文.北京交通大學(xué) 2019
[3]基于BPE和Transformer的漢語語音識(shí)別技術(shù)研究[D]. 欒效陽.哈爾濱工業(yè)大學(xué) 2019
[4]面向外骨骼機(jī)器人的智能康復(fù)信息系統(tǒng)的研究與實(shí)現(xiàn)[D]. 賈曉揚(yáng).電子科技大學(xué) 2019
[5]基于寬深度模型的廣告點(diǎn)擊率預(yù)估方法[D]. 林啟迪.華南理工大學(xué) 2019
[6]基于深度學(xué)習(xí)的產(chǎn)品意見挖掘研究[D]. 王彥芳.遼寧師范大學(xué) 2019
[7]中文自動(dòng)文摘關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D]. 張洪榮.哈爾濱工業(yè)大學(xué) 2018
[8]基于集成學(xué)習(xí)的蛋白質(zhì)序列分類問題的研究[D]. 趙欣.電子科技大學(xué) 2018
[9]基于主題相關(guān)圖的中文實(shí)體鏈接技術(shù)研究[D]. 陳依.國(guó)防科技大學(xué) 2017
[10]中文分詞方法在農(nóng)業(yè)搜索中的應(yīng)用研究[D]. 周利軍.四川農(nóng)業(yè)大學(xué) 2015
本文編號(hào):3606477
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3606477.html
最近更新
教材專著