面向司法領(lǐng)域的多標簽分類的研究與實現(xiàn)
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:D926;TP391.1
【圖文】:
邐…邐wx逡逑圖2-2:邋FastText模型結(jié)構(gòu)圖逡逑該模型由輸入層,隱藏層和輸出層組成,輸入層為詞向量,隱藏層通過將文本中逡逑詞向量進行平均得到句子向量的表達,最后通過暑促層線性分類器進行文本分類。該逡逑方法訓(xùn)練速度快,在很多文本分類任務(wù)中取得了出色的表現(xiàn)。逡逑隨著CNN/RNN的研究不斷增多,越來越多的模型使用這些方法對文本進行建逡逑模。Kim等人提出基于卷積神經(jīng)網(wǎng)絡(luò)的文本分類方法I1'其模型結(jié)構(gòu)如圖2-3所示:逡逑,uNm-爿逡逑wait邋!邋i邐*邐逡逑for邋"|!邐邐邐—邐.、???_?..-iC1!逡逑the邋I邋 ̄p邐?.—匚邐??...逡逑video邐|邋I邐二=一邐\、邐\3;邐?逡逑m,Kl邋邐邐邋'.’'.....‘.'.j—-邋—邐'邐V\逡逑n't邋Y邋r邐邐一二一邐)邐邐邐-逡逑rent邐」邐—?邋??—邐.逡逑il邋!邋1邐邋b邋-邋y邋’逡逑i邐i邋I邐}邐I邐邐I邋I邐|逡逑n邋x邋k邋r?present?Hon邋of邐Gonvotutionai邋iayor邋wslh邐Max-0yer-。椋恚筮姡疲酰欤欤澹澹铮睿颍蓿澹悖簦澹溴澹欤幔妫悖蝈义希螅澹?ance邋wHh邋sialic;邋and邐mu'tiftis邋filter邋wictfis邋and邐poohng邐wish邋dropoul邋and逡逑non-static邋channels邐feature邋maps邐sofimax逡逑圖2-3:邋TextCNN模型結(jié)構(gòu)圖逡逑該模型由卷積層
由于本身結(jié)構(gòu)的限制,無法得到文本序列的長期依賴,因此,為了解決這個問題,機逡逑器翻譯模型引入了注意力機制,通過在不M解碼階段不同詞重要性的不同,對文本逡逑向量進行加權(quán),將語義信息集中在需要的部分。最基本的注意力機制模型如圖2-5所逡逑不:逡逑st-l邐st邐*■逡逑i邋邐邋1邋i邐.邋\邐…I邐I邋邐逡逑;逡逑邐邐^邐邐i邐^邐_;邐邐i邋(逡逑^l.r邐九邋2,r邋I邐"3.r邐htr逡逑^l.l邋*J邐!—邋^2,1邋?_J邐^3./邐4邋!—邋l^t.l逡逑IL-JTTLJ邋LJ1邋n_j|逡逑:邋.邐..逡逑Xj邐X2邐x3邐xt逡逑圖2-5:注意力機制模型結(jié)構(gòu)圖逡逑其中,X代表輸入文本,代表輸出|丨標,定義如下條件概率:逡逑p{y,\yi,..邐(2-11)逡逑其中,&代表第/時刻的RNN隱層單元,其計算公式如下:逡逑s,邋=邋f(s,^uyt^,Ci)邐(2-12)逡逑c,.依賴于來源于輸入句子的隱藏序列(心...,/%
另一個挑戰(zhàn)是標簽不均衡問題。如果一個多標簽分類數(shù)據(jù)集上一部分數(shù)據(jù)的標逡逑簽數(shù)量遠遠小于另一部分數(shù)據(jù),那么這個多標簽分類數(shù)據(jù)集被認為是不均衡的。針對逡逑同一份案例數(shù)據(jù)進行分析,其結(jié)果如圖3-2所示,其中,x軸代表法條集合大小,y軸逡逑代表樣本比例占比。逡逑10000邋■邋|逡逑8000邋-逡逑6000邋-逡逑4000邋-逡逑2000邋-逡逑L邋llllllHlm,.…逡逑0邐10邐20邐30邐40邐50邐60邐70逡逑圖3-2:樣本標簽出現(xiàn)次數(shù)統(tǒng)計圖,其中,x代表按出現(xiàn)頻次排序的標簽,y代表標簽逡逑出現(xiàn)的次數(shù)。逡逑從圖中可以看出,每種法條出現(xiàn)的數(shù)量符合長尾分布,這意味著很多法條很少在逡逑審判中被引用。大多數(shù)傳統(tǒng)的多標簽分類算法在訓(xùn)練過程屮通過最小化整體分類誤逡逑差來進行優(yōu)化,這種方式假設(shè)所有標簽擁有同等的重要性。這種假設(shè)使得分類算法在逡逑訓(xùn)練過程中偏向于向數(shù)量占比多的標簽進行學(xué)>J。雖然法條定義可以體現(xiàn)不同法條逡逑之間的一些相關(guān)信息用于緩解標簽不均衡問題(例如表3-1所示,刑法第-百九十七逡逑條和刑法第一百九十一條是非常相似的。),但是目前在判決預(yù)測研究屮沒有工作考逡逑慮這方面的問題。逡逑現(xiàn)有的很多多標簽分類工作都引入了標簽之間的關(guān)聯(lián)彳','(息,然而,這些工作都將逡逑多標簽分類和閾值預(yù)測器分開學(xué)習(xí)
【相似文獻】
相關(guān)期刊論文 前10條
1 朱昌俊;;“二等座院士”身上的職業(yè)精神[J];作文與考試;2017年26期
2 包佳佳;田偉;;大規(guī)模圖上標簽集約束路徑的集合查詢[J];計算機科學(xué);2013年04期
3 吳金成;曹嬌;趙文棟;張磊;;標簽集中式發(fā)布訂閱機制性能分析[J];指揮控制與仿真;2010年06期
4 吳小蘭;章成志;;結(jié)合用戶關(guān)系網(wǎng)和標簽共現(xiàn)網(wǎng)的微博用戶標簽推薦研究[J];情報學(xué)報;2015年05期
5 李艷;賈君枝;;輕型標簽本體與受控詞表的結(jié)合研究[J];數(shù)字圖書館論壇;2014年08期
6 李松麗;曹平;姜盼;;國際標準化組織的標準標簽集研究分析[J];航空標準化與質(zhì)量;2018年02期
7 宋寧遠;劉晶;;數(shù)據(jù)標簽集及其適用性探析[J];數(shù)字圖書館論壇;2018年06期
8 丁子_g;;建設(shè)工程招標投標大數(shù)據(jù)標簽體系的研究與應(yīng)用[J];招標采購管理;2018年08期
9 包靖玲;霍永豐;顧佳;韓靜;李君;袁慶;李敬文;沈錫賓;;美國國立醫(yī)學(xué)圖書館期刊文檔標簽集概述[J];中國科技期刊研究;2013年04期
10 李鋒;楊有龍;;基于標簽特征和相關(guān)性的多標簽分類算法[J];計算機工程與應(yīng)用;2019年04期
相關(guān)重要報紙文章 前2條
1 王小默;應(yīng)用精準用戶畫像有多難?[N];人民郵電;2018年
2 任遠;世界無法依靠逃離來徹悟[N];文學(xué)報;2015年
相關(guān)博士學(xué)位論文 前4條
1 劉世超;基于網(wǎng)絡(luò)嵌入學(xué)習(xí)和標簽傳播的社區(qū)發(fā)現(xiàn)算法研究[D];武漢大學(xué);2017年
2 黃媛;面向服務(wù)的社會化標注方法研究[D];武漢大學(xué);2013年
3 彭岳;基于主題模型的多標簽學(xué)習(xí)問題研究[D];南京大學(xué);2018年
4 杜卿;面向個性化服務(wù)的User Profile研究及應(yīng)用[D];華南理工大學(xué);2014年
相關(guān)碩士學(xué)位論文 前10條
1 楊澤;面向司法領(lǐng)域的多標簽分類的研究與實現(xiàn)[D];北京郵電大學(xué);2019年
2 廖麗芳;基于標簽相關(guān)性和三層BP神經(jīng)網(wǎng)絡(luò)的多標簽分類算法研究[D];廈門大學(xué);2017年
3 杜煉;多標簽中文文本分類中的關(guān)鍵技術(shù)研究[D];杭州電子科技大學(xué);2018年
4 劉義明;多視角多標簽最優(yōu)鏈式學(xué)習(xí)算法[D];山東大學(xué);2018年
5 張文杰;大規(guī)模多標簽學(xué)習(xí)算法研究[D];華東師范大學(xué);2018年
6 張春焰;層次多標簽分類算法研究與應(yīng)用[D];南京郵電大學(xué);2018年
7 楊柳;基于標簽的外賣平臺用戶畫像研究[D];華中師范大學(xué);2016年
8 陸健;大型倉儲中基于無源RFID的人員與商品智能感知技術(shù)研究[D];東南大學(xué);2018年
9 楊曉丹;基于耦合相似性的多標簽k近鄰分類方法研究[D];云南大學(xué);2017年
10 呂榮榮;基于深度學(xué)習(xí)的多標簽文本分類的研究與實現(xiàn)[D];東南大學(xué);2018年
本文編號:2801866
本文鏈接:http://www.sikaile.net/falvlunwen/gongjianfalunwen/2801866.html