天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

多神經(jīng)網(wǎng)絡協(xié)作的軍事領域命名實體識別關(guān)鍵技術(shù)研究

發(fā)布時間:2021-10-31 20:48
  社交媒體在當今人們的日常生活中扮演著重要的角色,從微博等大規(guī)模社交文本中獲得的開源軍事情報成為進行軍事研判、軍事動向預測等多種軍事領域任務的重要信息來源。軍事領域命名實體識別指從文本識別出軍事領域相關(guān)的軍事武器裝備、軍事設施等類別的實體,是進行軍事情報生成、軍事知識圖譜構(gòu)建等研究的基礎性關(guān)鍵任務。針對社交文本中軍事領域的實體識別研究,面臨缺乏軍事領域公開語料集和實體類別劃分策略、實體邊界不清晰、社交文本表達不規(guī)范、詞的分布式表達不充分、實體識別模型單一、實體識別模型泛化能力弱等問題和挑戰(zhàn)。本文面向中文軍事領域中實體識別面臨的問題和挑戰(zhàn),提出基于多神經(jīng)網(wǎng)絡協(xié)作的中文軍事領域命名實體識別方法,主要的貢獻如下:(1)制定了考慮實體模糊邊界的實體標注策略和軍事領域?qū)嶓w類別劃分策略;提出基于仲裁方式的語料標注和語料質(zhì)量增強方法,提高語料標注的準確性。構(gòu)建了包含20,388個句子和15,317條微博,包含武器裝備等八個實體類別的軍事領域?qū)嶓w語料集MilitaryCorpus,解決了目前缺乏軍事領域公開語料集的問題,為實體識別工作奠定了基礎。(2)構(gòu)建了基于BERT-BiLSTM-CRF的多神經(jīng)網(wǎng)絡... 

【文章來源】:華東師范大學上海市 211工程院校 985工程院校 教育部直屬院校

【文章頁數(shù)】:92 頁

【學位級別】:碩士

【部分圖文】:

多神經(jīng)網(wǎng)絡協(xié)作的軍事領域命名實體識別關(guān)鍵技術(shù)研究


全文研究技術(shù)路線

內(nèi)容,全文,軍事,語料


華東師范大學碩士學位論文第一章緒論6圖1-2全文研究內(nèi)容本文的研究內(nèi)容和貢獻如下:1)針對目前研究中缺少面向互聯(lián)網(wǎng)社交文本的軍事領域命名實體語料集,缺少統(tǒng)一的軍事領域命名實體分類策略和標注策略的問題,構(gòu)建一個基于互聯(lián)網(wǎng)開放數(shù)據(jù)的軍事領域命名實體語料集MilitaryCorpus。該語料集涵蓋微觀軍情、新浪軍事、集結(jié)號三個微博帳戶從2013年12月到2018年12月間的21,711條微博[78]。經(jīng)過數(shù)據(jù)預處理和針對語料句子級別的劃分,結(jié)合領域?qū)<业膶I(yè)意見以及軍事領域相關(guān)文獻的調(diào)研,建立了考慮實體模糊邊界的實體標注策略,提出軍事領域命名實體的分類策略,以此指導對原始語料集進行字級別的標注[78]。最終得到含有15,317條微博,共計20,388個句子,包含軍事武器裝備、軍事組織與機構(gòu)、軍事設施、軍銜或軍職等八個類別的軍事領域?qū)嶓w語料集MilitaryCorpus[78]。相較于公開的數(shù)據(jù)集,MilitaryCorpus語料集以互聯(lián)網(wǎng)社交文本為原始數(shù)據(jù),數(shù)據(jù)集的構(gòu)建過程中提出面向軍事領域的考慮實體模糊邊界的實體標注策略和實體類別劃分策略,為后續(xù)軍事領域命名實體識別模型的建立奠定基矗2)不同于作戰(zhàn)文書、軍事想定文書等具有規(guī)范格式的文本,互聯(lián)網(wǎng)社交文本具有口語化表達、簡化表達等特點,文本具有不規(guī)范性,在含有大量的軍

技術(shù)路線圖,語料,技術(shù)路線,軍事


華東師范大學碩士學位論文第三章基于互聯(lián)網(wǎng)開放數(shù)據(jù)的軍事領域語料集構(gòu)建21第三章基于互聯(lián)網(wǎng)開放數(shù)據(jù)的軍事領域語料集構(gòu)建針對基于互聯(lián)網(wǎng)社交文本的軍事領域命名實體語料集缺乏的問題,本章介紹基于微博數(shù)據(jù)的軍事領域命名實體語料集的構(gòu)建工作,圖3-1為技術(shù)路線。原始數(shù)據(jù)來自新浪微博中新浪軍事、集結(jié)號、微觀軍情三個與軍事相關(guān)的微博賬號,通過解析微博頁面,編寫正則表達式進行數(shù)據(jù)采集。通過去除數(shù)據(jù)中噪聲和句子級別劃分的方式進行數(shù)據(jù)預處理,預處理后的數(shù)據(jù)放置于未標注數(shù)據(jù)池中,為語料集的構(gòu)建與擴增奠定基矗從未標注數(shù)據(jù)池中抽選出部分數(shù)據(jù)由標注者依據(jù)本文提出的考慮實體模糊邊界的軍事領域?qū)嶓w標注策略進行實體標注。同時,為增強語料集的質(zhì)量,本文提出基于仲裁方式的語料集質(zhì)量增強方法,最終構(gòu)建面向軍事領域命名實體識別的語料集MilitaryCorpus[78]。圖3-1MilitaryCorpus語料集構(gòu)建技術(shù)路線

【參考文獻】:
期刊論文
[1]多神經(jīng)網(wǎng)絡協(xié)作的軍事領域命名實體識別[J]. 尹學振,趙慧,趙俊保,姚婉薇,黃澤林.  清華大學學報(自然科學版). 2020(08)
[2]開源情報在中國國家安全情報中的地位和作用分析[J]. 楊建英,余至誠.  情報雜志. 2019(10)
[3]結(jié)合主動學習的條件隨機場模型用于法律術(shù)語的自動識別[J]. 黃菡,王宏宇,王曉光.  數(shù)據(jù)分析與知識發(fā)現(xiàn). 2019(06)
[4]基于深度主動學習的信息安全領域命名實體識別研究[J]. 彭嘉毅,方勇,黃誠,劉亮,姜政偉.  四川大學學報(自然科學版). 2019(03)
[5]基于深度學習的作戰(zhàn)文書命名實體識別[J]. 張曉海,操新文,高源.  指揮控制與仿真. 2019(04)
[6]基于深度學習的軍事命名實體識別方法[J]. 王學鋒,楊若鵬,朱巍.  裝甲兵工程學院學報. 2018(04)
[7]基于CNN-BLSTM-CRF模型的生物醫(yī)學命名實體識別[J]. 李麗雙,郭元凱.  中文信息學報. 2018(01)
[8]基于深度神經(jīng)網(wǎng)絡的武器名稱識別[J]. 游飛,張激,邱定,于銘華.  計算機系統(tǒng)應用. 2018(01)
[9]面向軍事文本的命名實體識別[J]. 馮蘊天,張宏軍,郝文寧.  計算機科學. 2015(07)
[10]主動學習與自學習的中文命名實體識別[J]. 鐘志農(nóng),劉方馳,吳燁,伍江江.  國防科技大學學報. 2014(04)



本文編號:3468828

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3468828.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶3c959***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com