差分隐私保护下一种精确挖掘top-k频繁模式方法

被引:29
作者
张啸剑 [1 ,2 ]
王淼 [1 ]
孟小峰 [1 ]
机构
[1] 中国人民大学信息学院
[2] 河南财经政法大学计算机与信息工程学院
基金
高等学校博士学科点专项科研基金;
关键词
频繁模式挖掘; top-k模式; 差分隐私; 拉普拉斯机制; 指数机制;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
频繁模式挖掘是分析事务数据集常用技术.然而,当事务数据集含有敏感数据时(如用户行为记录、电子病例等),直接发布频繁模式及其支持度计数会给个人隐私带来相当大的风险.对此提出了一种满足ε-差分隐私的top-k频繁模式挖掘算法DP-topkP(differentially private top-kpattern mining).该算法利用指数机制从候选频繁模式集合中挑选出top-k个携带真实支持度计数的模式;采用拉普拉斯机制产生的噪音扰动所选模式的真实支持度计数;为了增强输出模式的可用性,采用后置处理技术对top-k个模式的噪音支持度计数进行求精处理.从理论角度证明了该算法满足ε-差分隐私,并符合(λ,δ)-useful要求.实验结果证明了DP-topkP算法具有较好的准确性、可用性和可扩展性.
引用
收藏
页码:104 / 114
页数:11
相关论文
共 4 条
[1]   Can the Utility of Anonymized Data be Used for Privacy Breaches? [J].
Wong, Raymond Chi-Wing ;
Fu, Ada Wai-Chee ;
Wang, Ke ;
Yu, Philip S. ;
Pei, Jian .
ACM TRANSACTIONS ON KNOWLEDGE DISCOVERY FROM DATA, 2011, 5 (03)
[2]  
Anonymity preserving pattern discovery[J] . Maurizio Atzori,Francesco Bonchi,Fosca Giannotti,Dino Pedreschi.The VLDB Journal . 2008 (4)
[3]  
Differential privacy and robust statistics .2 Dwork C,Lei J. Proc of the 41st Annual ACM Symp on Theory of Computing (STOC09) . 2009
[4]  
The Differential Privacy Frontier .2 Dwork C. 6th Theory ofCryptography Conference (TCC 2009) . 2009