司法信息自動(dòng)化是司法領(lǐng)域發(fā)展的必然趨勢(shì),而司法實(shí)體識(shí)別是實(shí)現(xiàn)司法信息自動(dòng)化的基礎(chǔ),是后續(xù)實(shí)現(xiàn)司法事件抽取,構(gòu)建司法領(lǐng)域知識(shí)圖譜的必要前提,具有重要的研究意義。目前,隨著自然語言處理技術(shù)的不斷發(fā)展,實(shí)體識(shí)別領(lǐng)域的研究也越來越成熟,但由于中文字符的特殊性以及司法領(lǐng)域?qū)?zhǔn)確性要求非常高等原因,面向司法領(lǐng)域的實(shí)體識(shí)別研究比較少。對(duì)此,提出一種基于深度學(xué)習(xí)的模型來自動(dòng)識(shí)別裁判文書中的實(shí)體,該模型由雙向長(zhǎng)短期記憶模型(BiLSTM)和條件隨機(jī)場(chǎng)模塊(CRF)組成,將該模型稱為BiLSTM-CRF,為了進(jìn)一步提升模型實(shí)體識(shí)別的準(zhǔn)確率,提出使用Adam優(yōu)化器對(duì)模型進(jìn)行優(yōu)化。使用從裁判文書網(wǎng)上獲取的減刑案件、假釋案件及暫予監(jiān)外執(zhí)行案件的裁判文書作為數(shù)據(jù)集對(duì)該模型進(jìn)行驗(yàn)證。在對(duì)比實(shí)驗(yàn)中首先將該模型的實(shí)驗(yàn)結(jié)果與其他實(shí)體識(shí)別模型進(jìn)行對(duì)比,然后使用不同優(yōu)化算法優(yōu)化模型以證明Adam優(yōu)化器的有效性。實(shí)驗(yàn)表明,帶Adam優(yōu)化器的BiLSTM-CRF模型在數(shù)據(jù)集上能夠取得最優(yōu)的結(jié)果,準(zhǔn)確率為0.876,召回率為0.858,F1值為0.855。實(shí)驗(yàn)結(jié)果證明帶Adam優(yōu)化器的BiLSTM-CRF模型在司法領(lǐng)域?qū)嶓w識(shí)別上的...
【文章頁數(shù)】:6 頁
【部分圖文】:

圖1本文實(shí)現(xiàn)司法實(shí)體識(shí)別方法總覽
基于此,本文提出了一種基于BiLSTM-CRF[15-17]網(wǎng)絡(luò)模型的司法實(shí)體識(shí)別方法,并采用Adam優(yōu)化器對(duì)模型進(jìn)行優(yōu)化。基于BiLSTM-CRF的網(wǎng)絡(luò)模型除了能夠保留基于深度學(xué)習(xí)方法的優(yōu)點(diǎn),將字符作為基本的處理單位,對(duì)每個(gè)字符分配類別標(biāo)記外,還引入了一些約束條件,避免了基....

圖2LSTM單元工作流程
針對(duì)這個(gè)問題,長(zhǎng)短期記憶模型(LongShort-TermMemory,LSTM)[19]被提出,LSTM模型實(shí)際上是RNN模型的一種改進(jìn)模型。LSTM模型及LSTM單元工作流程如圖2所示,該模型利用門機(jī)制改變傳送到細(xì)胞狀態(tài)的信息來保持信息傳遞的持久性,從而能夠?qū)W到長(zhǎng)距離上下....

圖3BiLSTM-CRF模型
CRF一般用于計(jì)算整個(gè)序列的聯(lián)合概率。CRF的參數(shù)化形式定義如下:式中,tk,δl是特征函數(shù),λk,μl為相應(yīng)的權(quán)重,Zx是規(guī)范因子。上式指根據(jù)輸入序列x,得到輸出序列y的條件概率。tk是定義在邊上的特征函數(shù),稱為轉(zhuǎn)移特征,依靠當(dāng)前詞及前一個(gè)詞判斷是否符合該特征,由當(dāng)前位置及前一....
本文編號(hào):
3954419
本文鏈接:http://www.sikaile.net/falvlunwen/gongjianfalunwen/3954419.html