信息学院陈红教授团队论文被国际顶级会议ICDE 2022录用

更新时间:2022-04-13 00:00:00 浏览量:

近日,中国人民大学陈红教授团队一篇论文《Collecting Triangle Counts with Edge Relationship Local Differential Privacy》被国际数据库领域顶级会议ICDE 2022录用。ICDE (IEEE International Conference on Data Engineering) 是电气与电子工程师协会(IEEE)举办的旗舰会议,与SIGMOD、VLDB并称数据管理与数据库领域的三大国际顶级学术会议,入选为中国计算机学会推荐的A类国际学术会议,在国际上享有盛誉并具有广泛的学术影响力。

研究动机:

大数据时代的蓬勃发展,给我们带来机遇的同时,也带来了风险。据统计,每人每天会产生1-2GB的数据。数据渗透进了我们的生活,而我们也在数据面前无处遁形。通过数据分析,我们获得了各种便利的服务:商品推荐、好友推荐等,让我们不必费心就找到心仪的商品和志同道合的朋友。然而,我们的隐私却也面临着巨大的泄漏风险:性别、年龄、学历、工作地点,甚至是家庭住址、电话号码都不再是秘密。隐私的泄漏,给个人、企业与政府都带来了巨大的威胁。它不仅成为技术落地的瓶颈,同时也威胁着个人的财产与生命安全。

本文主要关注分布式场景下社交网络等图数据分析中的隐私问题:在收集有较高可用性的全局三角形计数的同时,保护用户间的敏感链接关系。相比于表格数据等,图数据上的统计信息收集更具挑战性。首先,我们假设数据收集者是半诚实的,它可以通过观察每个用户的报告,来推断特定的隐私链接关系。其次,用户间的数据是相互关联的。简单来说,某一个隐私链接关系可能同时被多个用户知晓,因此同一个隐私链接关系会被来自不同用户的报告直接泄漏。已有的研究要么采用松弛的隐私定义(Decentralized Differential Privacy),只能保证全局有一条隐私链接关系不被攻击者推断出来;要么忽略数据间的相关性,采用严格的隐私定义(Local Differential Privacy),来保证保证全局多条隐私链接关系不被攻击。

1.png

解决方案:

考虑到已有工作的局限性,我们尝试提出可用方案,在严格的隐私定义下,考虑数据间的相关性的同时收集到具有高可用性的统计信息。

从理论上,我们提出了考虑了数据相关性,并可以同时保护多个数据点的隐私定义Edge Relationship Differential Privacy(Edge-RLDP)。基于该定义,我们结合差分隐私中的强组合原理与下采样隐私放大理论,设计了两阶段收集算法。在算法的第一阶段,收集者首先估计个用户间的数据相关性强弱,并以此为依据进行隐私预算分配,为第二阶段做准备。在算法的第二阶段,每个用户首先对掌握的三角形进行采样,并估计自己的局部敏感度。然后用户结合局部敏感度,利用拉普拉斯机制对采样后的三角形计数结果进行扰动,并发送给数据收集者。最后数据收集者根据个用户的发送值对全局三角形计数进行无偏估计。我们严格证明的了该算法满足(ε,δ)-Edge-RLDP。

2.png

主要实验结果:

从实验结果看,我们的算法充分利用隐私预算,在严格的隐私定义下依然保证了较高的数据可用性。

3.png

作者简介:

第一作者:刘宇涵,中国人民大学信息学院2019级博士生,大数据科学与工程专业。目前主要研究方向是图数据上的隐私保护与差分隐私。

4.png

导师:陈红,中国人民大学信息学院教授、博士生导师。中国计算机学会数据库专业委员会常务委员、物联网络专业委员会委员。主要研究方向数据库、数据隐私保护和大数据系统。主持和参加国家重大专项项目、国家973项目、国家863计划项目、国家自然科学基金重点项目等项目30余项;在国内外学术期刊和学术会议上发表论文200余篇,出版数据库方面的著译作8部。参加了具有自主版权的并行数据库系统软件的研制,主持了具有自主版权的联机分析处理系列软件的研制。获得国家发明专利多项。获教育部科技进步一等奖和二等奖、北京市科学技术进步二等奖、北京市科学技术二等奖、中国计算机学会科技进步一等奖、国家精品课程奖、国家精品资源公共课、北京市精品课程奖、中国人民大学十大教学标兵等奖励,2005年入选教育部新世纪优秀人才支持计划。

5.png