[发明专利]基于桶结构划分的差分隐私非等距直方图发布方法和装置在审
申请号: | 202110954120.5 | 申请日: | 2021-08-19 |
公开(公告)号: | CN113672979A | 公开(公告)日: | 2021-11-19 |
发明(设计)人: | 郑啸;汪志伟;刘欢;王权鑫 | 申请(专利权)人: | 安徽工业大学 |
主分类号: | G06F21/62 | 分类号: | G06F21/62;G06K9/62;G06F17/18;G06F16/2458;G06F16/22 |
代理公司: | 南京九致知识产权代理事务所(普通合伙) 32307 | 代理人: | 严巧巧 |
地址: | 243032 *** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 结构 划分 隐私 等距 直方图 发布 方法 装置 | ||
本申请公开了基于桶结构划分的差分隐私非等距直方图发布方法和装置,利用两种方法对数据库生成直方图H1和H2以及各自的加噪声的直方图,并比较两种添加噪声的直方图在重叠分组区间内与真实值的差距大小以及重新划分前后非等距直方图H1’在该重叠分组区间内的全局误差的大小,从而确定是否需要替换原始直方图H1从而获得非等距直方图H3,并将H3进行加噪后发布。通过引入基于贪心分组的直方图结构,对已有非等距直方图结构的桶边界进行重划分,降低非等距直方图的发布误差,使发布的直方图在满足隐私保护的要求下更精准的反映出数据的分布特征。
技术领域
本发明涉及数据隐私保护技术领域,具体涉及一种基于桶结构划分的差分隐私非等距直方图发布方法和装置。
背景技术
随着大数据时代的到来,每天都有海量的信息数据产生,信息技术的深入和普及使得各种机构能够轻松收集大量信息数据,以多种形式发布统计结果,并对信息数据进行数据分析研究。虽然数据分析能从发布数据中获得有价值的信息,但同时也会带来个人隐私泄露的问题。
直方图技术是一种近似估计数据分布的常用技术,该技术将数据按照某种属性划分成不相交的桶,每个桶由频数或计数表示其特征。如果在进行数据发布的过程中直接发布原始直方图数据而不进行隐私保护,攻击者可以结合背景知识推断出个人的敏感信息,导致个人信息泄露。
现有的基于差分隐私的直方图发布技术大多都是对直方图进行加噪和重构,一般通过对临近位置的桶进行合并取均值,以此降低直方图的全局敏感度,产生的直方图多是等距直方图,在一定程度上隐藏了数据的一些重要信息,即未能考虑到数据的稀疏性,因此考虑非等距直方图的隐私保护十分必要。
专利号201910961197.8的专利申请“一种基于差分隐私的非等距直方图发布方法”,该申请案中利用数据的稀疏性,使用不均匀的经验分布函数构建非等距直方图,向非等距直方图任一分组的组高添加拉普拉斯噪声,最后发布基于差分隐私的非等距直方图。但该方法通过经验公式获取分组数,在数据越稀疏的区域会生成组距更大的直方图,根据该方法为各个分组加噪时的隐私预算公式,组距越大的分组将被添加更大的噪声,在一定长度的查询内噪声累积过快,使得直方图的准确度下降,可用度降低。
发明内容
本申请实施例提供了基于桶结构划分的差分隐私非等距直方图发布方法,以至少解决现有的技术中发布的非等距直方图的噪声过大所带来的准确度下降的技术问题。
根据本申请的一个方面,提供了一种基于桶结构划分的差分隐私非等距直方图发布方法,
将待处理的数据库表进行数据预处理,包括以键值对key,value的形式读取数据库表中N条记录,得到N个键值对;其中,key值表示数据库表中某一列的属性值,value值表示数据库表中某一敏感属性列的值;将key值相同的键值对合并,并将key值相同的键值对的value值累加,生成n个不同key值的键值对;按照key值从小到大的顺序将n个不同key值的键值对排序并获得对应的原始直方图H;
将上述预处理后排序的键值对生成原始非等距直方图H1和非等距直方图H1’,所述非等距直方图H1’由原始非等距直方图H1添加噪声后获得;
将上述预处理后排序的键值对利用贪心聚类算法获得原始直方图H基于分组的直方图分组方案,计算分组方案中各个分组对应的真实值,获得直方图H2和基于该分组方案得到的直方图H2’,所述基于分组方案得到的直方图H2’由直方图H2添加噪声后获得;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽工业大学,未经安徽工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110954120.5/2.html,转载请声明来源钻瓜专利网。