天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 軟件論文 >

基于卷積神經(jīng)網(wǎng)絡的非結構化文本敏感信息檢測系統(tǒng)的設計與實現(xiàn)

發(fā)布時間:2021-08-01 23:42
  伴隨著互聯(lián)網(wǎng)、計算機硬件設備和移動硬件設備的高速發(fā)展,用戶將大量的數(shù)據(jù)、文字等存放在電子文本文檔中,隨時隨地進行著通信與傳輸。而大量電子文本文檔的使用則存在著信息安全風險,從非結構化文本文檔中泄露敏感信息對個人、企業(yè)以及政府都是一個代價高昂的問題。如何檢測敏感信息以防止數(shù)據(jù)信息泄露成為了一個信息安全領域的重要課題,F(xiàn)階段實際應用的檢測方法大致分為兩種,敏感詞匹配以及傳統(tǒng)的機器學習手段。這兩種方法都依賴于特征關鍵詞與敏感種子詞共現(xiàn)的頻率。然而在實踐使用中,這可能會無法準確的檢測出更復雜的敏感信息模式。實際應用的檢測方法受人為情感因素影響,只注重了詞語與特征的出現(xiàn),割裂了文本本身上下文的聯(lián)系,忽略了語句之間的意義,只能粗暴地按照“含有關鍵詞特征即涉及敏感”的原則進行敏感信息檢測。近年來,有科學家提出利用遞歸神經(jīng)網(wǎng)絡進行敏感信息檢測,利用文檔的上下文信息更準確地預測文檔的敏感性,因為其自身模型具有的優(yōu)點較好的解決了上述出現(xiàn)的問題。但該方法在提升準確率的同時,模型訓練構建需要耗費較多的時間,實際應用時可能會影響效率。卷積神經(jīng)網(wǎng)絡模型作為深度學習的一種類型,在保留了遞歸神經(jīng)網(wǎng)絡模型具有的優(yōu)勢情況... 

【文章來源】:北京郵電大學北京市 211工程院校 教育部直屬院校

【文章頁數(shù)】:64 頁

【學位級別】:碩士

【部分圖文】:

基于卷積神經(jīng)網(wǎng)絡的非結構化文本敏感信息檢測系統(tǒng)的設計與實現(xiàn)


圖2-1?word2vec模型結構??3.?TF-IDF加權詞向量化法??

模型圖,模型,單詞,句子


?softmax?ouU>ut??圖2-2?Text-CNN模型體系結構圖[32]??如圖2-2所示,Text-CNN的模型架構Collobert[33]等人的CNN架構的略微變??體。令;^?對應于句子中的第i個單詞的k維單詞向量。長度為n的句子(在??必要時填充)表示為:=?......十,其中0表示連接運算符。一般??來說,令xi:i+j指的是單詞xi;xi+1,?......,?xi+j的連接。卷積操作涉及濾波器w??eRhk,其應用于h字的窗口以產(chǎn)生新特征。舉個例子,一個特征Ci通過公示:??Ci?=?f(w*Wi:i+h.丨+b)從單詞Wi:i+f>1的窗口中生成。這里b?G?R是偏置項,f使非線性??函數(shù),例如雙曲正切。此過濾器應用于句子{xI:h,X2:h+丨,…乂松丨:^中每個可能的單??詞窗口來生成特征圖,c?=?[c1,c2,....cn_h+1],?c?e?1^11+|。在特征圖上應用最大超時??池化操作[33],并取最大值c?=?max{C}作為對應于該特定過濾器的特征。YoonKim??的想法是為每個要素圖捕獲最重要的特征

原理圖,全連接,輸入層,卷積


卷枳層?b?J??d池化層??圖2-3?Text-CNN詳細過程原理圖丨34]??如圖2-3所示,Text-CNN整個模型共由輸入層、卷積層、池化層、全連接??層四個部分組成。??1.

【參考文獻】:
期刊論文
[1]中文分詞算法研究綜述[J]. 汪文妃,徐豪杰,楊文珍,吳新麗.  成組技術與生產(chǎn)現(xiàn)代化. 2018(03)
[2]基于關鍵詞的文本向量化與分類算法研究[J]. 蘇玉龍,張著洪.  貴州大學學報(自然科學版). 2018(03)
[3]基于表示學習的中文分詞[J]. 劉春麗,李曉戈,劉睿,范賢,杜麗萍.  計算機應用. 2016(10)
[4]基于Word2Vec的一種文檔向量表示[J]. 唐明,朱磊,鄒顯春.  計算機科學. 2016(06)
[5]一種基于中文文本分類技術的計算機輔助密級界定方法[J]. 潘婭.  電子測試. 2016(06)
[6]基于.NET及COM組件的應用開發(fā)技術[J]. 華文立,蘇傳芳,張紅梅.  蚌埠學院學報. 2013(01)
[7]ASP.NET使用COM組件處理EXCEL表格[J]. 陳端迎,劉寶華,張桂平.  電腦知識與技術. 2012(22)
[8]從美國政府機密文件泄密事件看政府涉密電子文件共享的安全管理[J]. 楊霞.  檔案與建設. 2011(03)
[9]COM組件技術的應用[J]. 沈樹茂.  電腦知識與技術. 2010(07)
[10]電子文件密級管理系統(tǒng)的關鍵技術與設計[J]. 王文宇,陳尚義.  信息安全與通信保密. 2009(10)

碩士論文
[1]電子文檔防泄密平臺關鍵技術的研究[D]. 王飛平.杭州電子科技大學 2017
[2]基于文本語義相似度的計算機輔助定密系統(tǒng)研究與實現(xiàn)[D]. 連婧.北京交通大學 2016
[3]格式化文件內(nèi)容提取與過濾關鍵技術研究[D]. 劉麗榮.哈爾濱工程大學 2012
[4]桌面搜索引擎的設計與實現(xiàn)[D]. 孟美華.大連理工大學 2009



本文編號:3316458

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/3316458.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶44b04***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com