基于深度學(xué)習(xí)的數(shù)據(jù)脫敏研究

發(fā)布時間：2021-09-23 17:48

　　隨著信息化社會的到來,數(shù)據(jù)爆發(fā)式增長催化了數(shù)據(jù)產(chǎn)業(yè)的蓬勃發(fā)展,但是對各種形式數(shù)據(jù)中的敏感信息進行有效保護的同時減少損害數(shù)據(jù)的效用性,才能加快數(shù)據(jù)流通,進一步推動產(chǎn)業(yè)發(fā)展。數(shù)據(jù)脫敏即為一種既可針對性保護敏感數(shù)據(jù),又可最大程度保留原數(shù)據(jù)信息的數(shù)據(jù)安全技術(shù)。本文以數(shù)據(jù)脫敏技術(shù)為研究對象,研究基于深度學(xué)習(xí)的非結(jié)構(gòu)化數(shù)據(jù)（文本數(shù)據(jù),尤其是電子病歷）的敏感信息識別技術(shù),同時本文還研究基于GAN（Generative Adversarial Networks,生成對抗網(wǎng)絡(luò)）的結(jié)構(gòu)化數(shù)據(jù)脫敏技術(shù)。在醫(yī)療電子病歷的脫敏中,傳統(tǒng)的基于規(guī)則和正則表達式的敏感信息識別方式需要大量專家知識,遷移性較差,識別模式也較為呆板。以深度學(xué)習(xí)、機器學(xué)習(xí)為基礎(chǔ)的識別技術(shù)應(yīng)運而生。基于循環(huán)神經(jīng)網(wǎng)絡(luò)的一系列識別系統(tǒng)大大提升了識別的效果,然而其語義抽取能力稍顯薄弱,并行性相對較差,而且傳統(tǒng)的靜態(tài)詞向量不能結(jié)合上下文對多義詞進行準(zhǔn)確表征。BERT作為基于注意力機制的動態(tài)詞向量,其在特征抽取、解決多義詞問題和并行性方面有了很大提升。本文在BERT（Bidirectional Encoder Representation from T...

【文章來源】：哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校

【文章頁數(shù)】：68 頁

【學(xué)位級別】：碩士

【部分圖文】：

數(shù)據(jù)防泄漏隨著深度學(xué)習(xí)的興起，其強大的特征抽取能力使得非結(jié)構(gòu)化數(shù)據(jù)其中的信息

基于深度學(xué)習(xí)的數(shù)據(jù)脫敏研究

charCNN-BiLSTM-CRF架構(gòu)圖

基于深度學(xué)習(xí)的數(shù)據(jù)脫敏研究

基于字的雙向LSTM-CRF架構(gòu)圖

【參考文獻】：
期刊論文
[1]個人信息的邊界、敏感度與中心度研究——基于專家和公眾認知的數(shù)據(jù)分析[J]. 吳標(biāo)兵,許和隆.  南京郵電大學(xué)學(xué)報(社會科學(xué)版). 2018(05)
[2]金融消費者隱私權(quán)保護機制初探——以自貿(mào)區(qū)金融創(chuàng)新為視角[J]. 劉元.  法制與經(jīng)濟(下旬). 2014(05)
[3]基于規(guī)則和概率統(tǒng)計相結(jié)合的中文命名實體識別研究[J]. 閆萍.  計算機與數(shù)字工程. 2011(09)

本文編號：3406144

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/3406144.html

上一篇：改進的布谷鳥算法及應(yīng)用研究
下一篇：復(fù)雜環(huán)境下的特征學(xué)習(xí)

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深度學(xué)習(xí)的數(shù)據(jù)脫敏研究