基于混合差分隱私的流數(shù)據(jù)頻數(shù)統(tǒng)計(jì)算法研究
發(fā)布時(shí)間:2021-10-30 06:14
頻數(shù)統(tǒng)計(jì)是數(shù)據(jù)挖掘中非常經(jīng)典和常用的方法之一,它通過計(jì)算數(shù)據(jù)項(xiàng)在數(shù)據(jù)集合中出現(xiàn)的次數(shù),可以選出頻繁出現(xiàn)的數(shù)據(jù)項(xiàng)。隨著大數(shù)據(jù)挖掘技術(shù)的興起,擁有海量數(shù)據(jù)的公司可以收集和分析用戶數(shù)據(jù),這些數(shù)據(jù)包含的信息是非常有價(jià)值的。社交網(wǎng)站上有上億的用戶主頁,每天有上十億訪問量,想實(shí)時(shí)知道最常訪問的主頁并且獲取排名,需要收集用戶瀏覽網(wǎng)頁數(shù)據(jù)。然而,收集用戶數(shù)據(jù)和發(fā)布頻數(shù)統(tǒng)計(jì)數(shù)據(jù)通常會導(dǎo)致隱私泄露問題。本文為了解決收集數(shù)據(jù)和發(fā)布數(shù)據(jù)中存在的隱私泄露問題,提出了基于差分隱私的流數(shù)據(jù)實(shí)時(shí)頻數(shù)統(tǒng)計(jì)發(fā)布算法,主要研究成果如下:針對頻數(shù)統(tǒng)計(jì)中收集數(shù)據(jù)可能存在的隱私泄露問題,本論文開展了對差分隱私保護(hù)機(jī)制的深入研究。本文提出兩種用戶角色,一種用戶集合提供原始數(shù)據(jù),本文利用差分隱私保護(hù)技術(shù)將這部分?jǐn)?shù)據(jù)構(gòu)造一個(gè)候選列表;另一種用戶集合提供擾動后數(shù)據(jù),本文根據(jù)候選列表和本地差分隱私保護(hù)技術(shù),對這部分用戶的數(shù)據(jù)集合進(jìn)行頻數(shù)統(tǒng)計(jì)發(fā)布,針對直接本地編碼方法中數(shù)據(jù)可用性低的問題,本論文提出一種改進(jìn)的本地編碼方法,可以有效地提高數(shù)據(jù)可用性,提高了算法的準(zhǔn)確度。針對基于差分隱私的頻數(shù)統(tǒng)計(jì)方法無法進(jìn)行連續(xù)發(fā)布的問題,本論文進(jìn)而提出了針對...
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:54 頁
【學(xué)位級別】:碩士
【部分圖文】:
主要研究內(nèi)容框架圖
哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文第 3 章 基于混合差分隱私的流數(shù)據(jù)頻數(shù)統(tǒng)計(jì)算法.1 引言第 2 章主要介紹了差分隱私保護(hù)和本地化差分隱私保護(hù)模型的定義、性質(zhì)現(xiàn)機(jī)制和方案。本章首先介紹本論文的總體框架,介紹整體算法執(zhí)行的流程后針對流程的每一步,設(shè)計(jì)出相應(yīng)的算法,最后將這些算法應(yīng)用在框架中,出基于差分隱私的流數(shù)據(jù)頻數(shù)統(tǒng)計(jì)發(fā)布算法。.2 問題需求分析
圖 3-1 頻數(shù)統(tǒng)計(jì)發(fā)布數(shù)據(jù)擁有者提供數(shù)據(jù)給可信第三方,第三方對收集的數(shù)據(jù)進(jìn)行頻數(shù)統(tǒng)計(jì),統(tǒng)計(jì)結(jié)果。如圖 3-1 所示。但是,攻擊者可以根據(jù)頻數(shù)統(tǒng)計(jì)結(jié)果,結(jié)合其他識,推斷出用戶的隱私信息。比如,2006 年,美國 Netflix 公司舉辦了一個(gè)賽,將原始數(shù)據(jù)集中的用戶名做了隨機(jī)化處理后,發(fā)布數(shù)據(jù)集給數(shù)據(jù)分析者。但是,對用戶名進(jìn)行擾動的方法是不能夠保證隱私的。2007 年,一些來薩斯大學(xué)奧斯汀分校的兩位研究員表示通過關(guān)聯(lián) Netflix 公開的數(shù)據(jù)和 IMD上公開的記錄能夠識別匿名后用戶的身份。所以,針對以上問題,可以選擇隱私的方法對頻數(shù)統(tǒng)計(jì)結(jié)果進(jìn)行擾動,能保證用戶數(shù)據(jù)的安全性,同時(shí)有一精度損失。
本文編號:3466213
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:54 頁
【學(xué)位級別】:碩士
【部分圖文】:
主要研究內(nèi)容框架圖
哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文第 3 章 基于混合差分隱私的流數(shù)據(jù)頻數(shù)統(tǒng)計(jì)算法.1 引言第 2 章主要介紹了差分隱私保護(hù)和本地化差分隱私保護(hù)模型的定義、性質(zhì)現(xiàn)機(jī)制和方案。本章首先介紹本論文的總體框架,介紹整體算法執(zhí)行的流程后針對流程的每一步,設(shè)計(jì)出相應(yīng)的算法,最后將這些算法應(yīng)用在框架中,出基于差分隱私的流數(shù)據(jù)頻數(shù)統(tǒng)計(jì)發(fā)布算法。.2 問題需求分析
圖 3-1 頻數(shù)統(tǒng)計(jì)發(fā)布數(shù)據(jù)擁有者提供數(shù)據(jù)給可信第三方,第三方對收集的數(shù)據(jù)進(jìn)行頻數(shù)統(tǒng)計(jì),統(tǒng)計(jì)結(jié)果。如圖 3-1 所示。但是,攻擊者可以根據(jù)頻數(shù)統(tǒng)計(jì)結(jié)果,結(jié)合其他識,推斷出用戶的隱私信息。比如,2006 年,美國 Netflix 公司舉辦了一個(gè)賽,將原始數(shù)據(jù)集中的用戶名做了隨機(jī)化處理后,發(fā)布數(shù)據(jù)集給數(shù)據(jù)分析者。但是,對用戶名進(jìn)行擾動的方法是不能夠保證隱私的。2007 年,一些來薩斯大學(xué)奧斯汀分校的兩位研究員表示通過關(guān)聯(lián) Netflix 公開的數(shù)據(jù)和 IMD上公開的記錄能夠識別匿名后用戶的身份。所以,針對以上問題,可以選擇隱私的方法對頻數(shù)統(tǒng)計(jì)結(jié)果進(jìn)行擾動,能保證用戶數(shù)據(jù)的安全性,同時(shí)有一精度損失。
本文編號:3466213
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/3466213.html
最近更新
教材專著