基于深度學(xué)習(xí)的數(shù)據(jù)脫敏研究
發(fā)布時間:2021-09-23 17:48
隨著信息化社會的到來,數(shù)據(jù)爆發(fā)式增長催化了數(shù)據(jù)產(chǎn)業(yè)的蓬勃發(fā)展,但是對各種形式數(shù)據(jù)中的敏感信息進行有效保護的同時減少損害數(shù)據(jù)的效用性,才能加快數(shù)據(jù)流通,進一步推動產(chǎn)業(yè)發(fā)展。數(shù)據(jù)脫敏即為一種既可針對性保護敏感數(shù)據(jù),又可最大程度保留原數(shù)據(jù)信息的數(shù)據(jù)安全技術(shù)。本文以數(shù)據(jù)脫敏技術(shù)為研究對象,研究基于深度學(xué)習(xí)的非結(jié)構(gòu)化數(shù)據(jù)(文本數(shù)據(jù),尤其是電子病歷)的敏感信息識別技術(shù),同時本文還研究基于GAN(Generative Adversarial Networks,生成對抗網(wǎng)絡(luò))的結(jié)構(gòu)化數(shù)據(jù)脫敏技術(shù)。在醫(yī)療電子病歷的脫敏中,傳統(tǒng)的基于規(guī)則和正則表達式的敏感信息識別方式需要大量專家知識,遷移性較差,識別模式也較為呆板。以深度學(xué)習(xí)、機器學(xué)習(xí)為基礎(chǔ)的識別技術(shù)應(yīng)運而生。基于循環(huán)神經(jīng)網(wǎng)絡(luò)的一系列識別系統(tǒng)大大提升了識別的效果,然而其語義抽取能力稍顯薄弱,并行性相對較差,而且傳統(tǒng)的靜態(tài)詞向量不能結(jié)合上下文對多義詞進行準(zhǔn)確表征。BERT作為基于注意力機制的動態(tài)詞向量,其在特征抽取、解決多義詞問題和并行性方面有了很大提升。本文在BERT(Bidirectional Encoder Representation from T...
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:68 頁
【學(xué)位級別】:碩士
【部分圖文】:
數(shù)據(jù)防泄漏隨著深度學(xué)習(xí)的興起,其強大的特征抽取能力使得非結(jié)構(gòu)化數(shù)據(jù)其中的信息
charCNN-BiLSTM-CRF架構(gòu)圖
基于字的雙向LSTM-CRF架構(gòu)圖
【參考文獻】:
期刊論文
[1]個人信息的邊界、敏感度與中心度研究——基于專家和公眾認知的數(shù)據(jù)分析[J]. 吳標(biāo)兵,許和隆. 南京郵電大學(xué)學(xué)報(社會科學(xué)版). 2018(05)
[2]金融消費者隱私權(quán)保護機制初探——以自貿(mào)區(qū)金融創(chuàng)新為視角[J]. 劉元. 法制與經(jīng)濟(下旬). 2014(05)
[3]基于規(guī)則和概率統(tǒng)計相結(jié)合的中文命名實體識別研究[J]. 閆萍. 計算機與數(shù)字工程. 2011(09)
本文編號:3406144
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:68 頁
【學(xué)位級別】:碩士
【部分圖文】:
數(shù)據(jù)防泄漏隨著深度學(xué)習(xí)的興起,其強大的特征抽取能力使得非結(jié)構(gòu)化數(shù)據(jù)其中的信息
charCNN-BiLSTM-CRF架構(gòu)圖
基于字的雙向LSTM-CRF架構(gòu)圖
【參考文獻】:
期刊論文
[1]個人信息的邊界、敏感度與中心度研究——基于專家和公眾認知的數(shù)據(jù)分析[J]. 吳標(biāo)兵,許和隆. 南京郵電大學(xué)學(xué)報(社會科學(xué)版). 2018(05)
[2]金融消費者隱私權(quán)保護機制初探——以自貿(mào)區(qū)金融創(chuàng)新為視角[J]. 劉元. 法制與經(jīng)濟(下旬). 2014(05)
[3]基于規(guī)則和概率統(tǒng)計相結(jié)合的中文命名實體識別研究[J]. 閆萍. 計算機與數(shù)字工程. 2011(09)
本文編號:3406144
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/3406144.html
最近更新
教材專著