[发明专利]一种基于条件概率分布的隐私保护数据发布方法有效
申请号: | 201811265074.2 | 申请日: | 2018-10-29 |
公开(公告)号: | CN109543445B | 公开(公告)日: | 2022-12-20 |
发明(设计)人: | 周水庚;关佶红;刘朝斌 | 申请(专利权)人: | 复旦大学 |
主分类号: | G06F21/62 | 分类号: | G06F21/62 |
代理公司: | 上海正旦专利代理有限公司 31200 | 代理人: | 陆飞;陆尤 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于信息安全隐私保护技术领域,是一种基于条件概率分布的隐私保护数据发布方法。根据条件概率分布对攻击者的先验知识进行建模,让攻击者在不同事务中具有不同的先验知识;然后利用构建的模型和准标识符属性值,对每条记录的敏感属性值进行预测,并用预测值替换原始值后进行发布。发布的敏感属性预测值与原始值没有直接相关性,有效保护了用户数据隐私;预测的敏感属性值分布与真实的分布近似,有效控制了分布误差,确保其发布数据集比泛化及随机应答方法发布的数据集可用性更好。本发明能为医疗、金融、生信、交通等各个社会领域的数据发布提供隐私保护机制,在保护用户数据隐私的同时,为数据在科学研究和社会服务中的应用提供支撑。 | ||
搜索关键词: | 一种 基于 条件 概率 分布 隐私 保护 数据 发布 方法 | ||
【主权项】:
1.一种基于条件概率分布的隐私保护数据发布方法,其特征在于,根据条件概率分布对攻击者的先验知识进行建模,让攻击者在不同事务中具有不同的先验知识;然后利用构建的模型和准标识符属性(QIA)值,对每条记录的敏感属性(SA)值进行预测,并替换原有敏感属性值后得到发布数据集;用T表示一个拥有n条数据记录的输入数据集,T拥有dQI个准标识符属性![]()
和dS个敏感值属性
并记A=AQI∪AS,d=dQI+dS;用t[A′]表示属性集
在一个记录t上的属性值;用T′表示与数据集T相对应的一个发布数据集,T′和T具有相同的记录类型或关系模式,但和T相比,T′的敏感属性值是按照一定规则扰动后得到的;以数据记录即元组为单位,使用敏感属性在准标识符属性值上的条件概率分布p(AS|AQI),通过机器学习的方法对数据记录t(t∈T)的基准分布即先验知识进行建模;然后利用该模型,对已知准标识符属性值的记录t,预测其敏感属性值;在计算数据记录t的基准分布时,从对应的训练数据中删除记录t,然后训练得到模型M(t),再使用模型M(t)预测记录t的敏感属性值,这样记录t的基准分布M(t)(AS|t[AQI])与t的真实敏感属性值是条件独立的,没有相关性。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811265074.2/,转载请声明来源钻瓜专利网。