[发明专利]一种基于差分隐私发布的数据的可用性计算方法有效

申请号：	201410349202.7	申请日：	2014-07-21
公开（公告）号：	CN104135362A	公开（公告）日：	2014-11-05
发明（设计）人：	华景煜;唐安;仲盛	申请（专利权）人：	南京大学
主分类号：	H04L9/00	分类号：	H04L9/00;G06F19/00
代理公司：	南京苏高专利商标事务所(普通合伙) 32204	代理人：	李玉平
地址：	210046 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于隐私发布数据可用性计算方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种基于差分隐私发布的数据的可用性计算方法，属于信息安全技术领域。

背景技术

服务提供者通常能够搜集到大量的用户数据，有时候同一个服务的多个提供者可能会将他们积累的数据合并到一起以支持一些特殊的数据挖掘任务。例如，全国的大型医院将他们的数据统一提交给一个研究组，该研究组将基于这些数据挖掘出流感传播的模型。

在上述过程中，如何保护用户的隐私是十分重要的，即所谓保护隐私的联合数据发布问题。针对这一问题提出了很多模型，如K匿名和差分隐私。K匿名及其变形(l-diversity，t-closeness)将全部记录泛化为若干组记录，使得每一组中的各个记录无法相互区分。差分隐私是一个更强的模型。它要求发布出来的数据对于单条记录的加入或者删除不敏感。实现该模型的匿名化方法通常在发布数据中加入噪声，或者随机泛化原始数据。显然，所有的这些匿名化方法有损于数据可用性。因此无论数据提供者还是数据使用者都期望能计算数据可用性以衡量匿名化导致的信息损失。

遗憾的是，数据可用性的计算并不显然。其要求同时知道发布的数据及原始数据集，但通常原始数据由独立于数据提供者的发布者合并并做匿名化处理且出于隐私保护的目的，原始数据不应当透露给任何数据提供者或使用者。注意，尽管发布者从提供者处获得数据，但在一个强安全模型下，发布者不能把搜集到的原始数据透露给任何一个数据提供者。因此，数据提供者或者使用者计算可用性是困难的。尽管他们可以要求发布者计算数据可用性(这是简单的因为发布者同时拥有原始数据以及发布数据)并告知他们，但是发布者未必是可以信任的，他完全可以提供一个伪造的更高的可用性。事实上，大量数据的匿名化处理有着巨大的开销，发布者具有这样的动机去声称一个更高的可用性。

发明内容

发明目的：本发明目的即解决在不损害隐私的情况下如何计算出发布数据的可用性。

技术方案：一种基于差分隐私发布的数据的可用性计算方法，针对集合型数据和关系型数据分别提出了基于DiffPart的保护隐私的数据可用性计算方法和基于DiffGen的保护隐私的数据可用性计算方法，对可用性进行定义，分别给出度量两种方法的信息损失的可用性函数，通过发布者发布一些加密过的辅助数据集，其中使用在上构造的密码系统来加密所述辅助数据集，依次验证所述辅助数据集是否正确的包含了发布者的数据，利用所述辅助数据集计算出最终发布数据集的可用性。实验表明了该方案的效率较高，其主要受数据提供者个数和数据规模影响。

有益效果：与现有技术相比，本发明的特点为：

(1)首先，提出了基于DiffPart(一种基于差分隐私模型发布set-valued数据的算法)的保护隐私的数据可用性计算方法。DiffPart使用一个上下文无关的分类树来对记录统计加入噪声，并且记录不会被泛化。本发明所提的方法通过加密记录的原始统计频度实现对于发布数据的可用性计算。该方法可以保护原始数据不被各个计算实体(使用者或提供者)窃取，因为它们不能获知某个特定记录在原始数据中是否出现以及出现多少次。此外，因为加密是由发布者实现的，本发明也提供了一个增量式验证其正确性的协议。理论上的分析表明了本发明所提出的方法的安全性及正确性。

(2)将上述方法扩展到DiffGen(一种基于差分隐私发布关系型数据的方法)。与DiffPart不同，DiffGen在对记录的频度加入噪声前要先泛化记录的属性值。信息损失是由于泛化以及加噪声两个方面。这两个方面的信息损失由不同的可用性函数度量。本发明对两者都做了考虑。分析表明，对于泛化操作的可用性可以仅利用发布数据来计算。而噪声部分的可用性定义和DiffPart的很类似，因此本发明稍稍调整了用于DiffPart可用性计算的方法来完成DiffGen噪声部分的可用性计算。

(3)通过一系列实际数据集上的实验评估了所提出的方法的效率，结果表明该方法足够高效，因为数据发布及可用性计算都是离线的。

附图说明

图1是DiffPart和DiffGen概览；

图2是不公开T_o的解决方案流程图；

图3是增量验证协议示意图；

图4是时间开销对比图；

图5是时间开销对比图(n＝48)。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

1.基础知识

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载