[发明专利]优先兼顾小桶可用性的差分隐私直方图发布方法及系统有效
申请号: | 202110345856.2 | 申请日: | 2021-03-31 |
公开(公告)号: | CN113434897B | 公开(公告)日: | 2022-07-05 |
发明(设计)人: | 徐正全;陈友勤;毛立晖 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06F21/62 | 分类号: | G06F21/62;G06F16/2458;G06F16/906 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 严彦 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 优先 兼顾 小桶 可用性 隐私 直方图 发布 方法 系统 | ||
本发明提供一种优先兼顾小桶可用性的差分隐私直方图发布方法及系统,进行初步扰动,包括将一部分隐私预算结合拉普拉斯差分隐私机制对原始直方图进行初步扰动,得到初步扰动后的中间直方图;阈值函数处理,包括对初步扰动后的中间直方图进行阈值处理;排序,包括对更新后的中间直方图实施排序,得到从小到大排序的直方图;分组聚类,包括利用剩余的隐私预算,对已按从小到大排序的直方图进行按序分组,得到分组集合;发布,包括对分组集合中的每个分组结合剩余的隐私预算生成最终噪声,得到实施扰动后的扰动直方图并用于发布。本发明不仅满足了严格的ε‑差分隐私保护,同时还实现了重构误差和噪声误差的平衡。
技术领域
本发明属于信息安全领域,具体涉及一种优先兼顾小桶可用性的差分隐私直方图发布方法及系统。
背景技术
随着移动互联网的快速发展以及移动设备的广泛普及,基于各种App应用,每天都会产生大量的数据。虽然通过对数据的采集、提取和发布可以帮助用户从繁杂的数据中高效、快速、准确地获取所需信息,但是隐私安全问题也随之越来越严峻。这些隐私信息的泄露给用户带来的潜在或直接危害,使得用户个人的隐私安全成为热门话题。
数据的隐私保护问题最早由统计学家Dalenius在20世纪70年代末提出。他认为,保护数据库中的隐私信息,就是要使任何用户(包括合法用户和潜在的攻击者)在访问数据库的过程中无法获取关于任意个体的确切信息。虽然这一定义具有理论上的指导意义,但显然它是主观的和模糊的,所以学者们在后续的研究中以这一定义为目标,提出了许多量化指标更明确、可操作性更强的隐私保护模型和方法。目前,数据隐私保护方法主要有匿名、加密和随机扰动。在这三种方法中,匿名隐私保护主要是通过泛化或隐匿方式实现敏感信息的保护,其建立在特殊的攻击假设及一定的背景知识基础上且其安全性无法从数学上严格分析和证明的。常见的匿名技术有k-匿名、l-多样性、t-近邻性以及它们的改进策略。加密技术是基于密码学实现对数据的保护,虽然可以确保较高的安全性,但其只能针对特定计算方式的应用且算法复杂度较高,并不适用在大数据分析挖掘的应用场景。随机扰动技术能够保证较好的数据可用性,对分析挖掘结果的影响较小,是目前重要的隐私保护手段。在基于随机扰动的方法中,差分隐私技术由于具有严格的数学公理化模型,并对攻击者的背景知识没有限制,是一种从数学上严格定义保护强度和可用性的隐私保护手段,近年来其已成为隐私保护研究的热门领域。
差分隐私被认为是事实上标准的隐私定义,并应用于许多隐私保护场景,其中,直方图便是一种非常典型的应用。直方图采用分箱技术,针对数据库表中的一列属性或多列属性将数据库表划分成不相交的区域,并对每个区域采用某种特征统计值表示以了解各类数据的分布。直方图可用于人口普查与人口流动、路况信息、疾病发现、产品检验、日常个人活动包括生活开销、网页浏览、APP应用等的统计,以利于国家人口管理、资源配置优化、国民医疗服务改善、产品优产、乃至生活开销等个人行为的管理。然而,若将原始直方图直接用于发布,那么可能面临个人隐私的泄露问题。比如,某医院对本月来院就医的病人进行患病类型统计,其中统计出患有糖尿病的患者有3人,若其他患病类型的人数及其糖尿病患者中2 人已知,那么若能掌握到病人的就医情况,这第3位糖尿病患者就会很容易被推测出。所以,在发布直方图之前,需要经过隐私处理后方以提供给后续使用者分析与查询。
在差分隐私直方图发布中,数据库表删除一条记录或增加一条记录,对频数直方图的发布或查询结果的影响是1,其敏感度是很小的。因此,直方图的发布在差分隐私研究中也是备受关注的。然而,原始数据分布的不均匀促使由数据构造的直方图中存在大小不一的统计量(桶),而大小不一的统计量在满足ε-差分隐私发布的隐私需求下,虽然均承担着等量的绝对噪声量,但在单位量上的精度,小的统计量往往比大的统计量低,即相同的绝对噪声量对不同的真实统计量所造成的影响是不同的。例如,标准偏差为8的对于一个真实统计量为 10000的来说也许是可以接受的,但是对于一个真实统计量为1的来说那绝对是不可接受的,尤其在那种分布十分不均匀的情况下,更为突出。
纵观差分隐私直方图发布的相关方法中,主要存在以下问题:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110345856.2/2.html,转载请声明来源钻瓜专利网。