[发明专利]一种基于K-匿名的健康数据隐私保护方法有效
申请号: | 201510849304.X | 申请日: | 2015-11-27 |
公开(公告)号: | CN105512566B | 公开(公告)日: | 2018-07-31 |
发明(设计)人: | 蔡洪斌;荆学士;卢光辉;陈雷霆;邱航;崔金钟 | 申请(专利权)人: | 电子科技大学;东莞电子科技大学电子信息工程研究院 |
主分类号: | G06F21/62 | 分类号: | G06F21/62 |
代理公司: | 成都中亚专利代理有限公司 51126 | 代理人: | 何渊 |
地址: | 610017 四川省*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于K‑匿名的健康数据隐私保护方法,包括以下步骤:(1)对敏感信息进行分组,并对每一个分组设置隐私泄露率约束;(2)统计数据集中各个不同敏感属性值的元组个数;(3)根据阈值a1来判断对数据是直接进行聚类操作还是只处理其中一部分的数据;(4)判断敏感属性值的个数是否大于a2,是则执行下一步,否则跳出流程;(5)对数据进行聚类处理;(6)对数据进行泛化处理;本发明对数据进行K‑匿名处理,因此处理后的数据可以抵抗链接攻击;可以有效地防止一致性攻击。 | ||
搜索关键词: | 健康数据 敏感属性 隐私保护 分组设置 聚类操作 聚类处理 敏感信息 统计数据 隐私泄露 攻击 有效地 链接 元组 跳出 抵抗 分组 | ||
【主权项】:
1.一种基于K‑匿名的健康数据隐私保护方法,其特征在于,所述方法包含以下步骤:(1)确定发布数据的标识符属性、敏感属性、准标识符属性;(2)依据敏感程度,对敏感属性进行分组,并设置相关的阈值参数;进行过分组之后得到敏感属性分组s=(sg1,sg2,...,sgm),并设置组隐私约束率a3=(asg1,asg2,...,asgm),且sgi中元素的敏感值相同即s中共有m个敏感值;同时设置参数a1,a2的值,a1表示是否对原始数据直接进行匿名处理的阈值;a2表示每个等价类中应至少出现的不同敏感值的个数;(3)根据阈值a1来判定对数据是否直接进行下一步的聚类处理还是先对原始数据进行处理使之满足阈值a1的要求;得到数据集T;(4)对步骤(3)得到的数据集T进行聚类处理;步骤4.1,判断敏感属性值的个数是否大于a2,是则执行下一步,否则跳出流程;定义QIS={},QIS为等价类的集合;步骤4.2,从数据集T中随机选取一个元组t,T=T‑{t};生成聚类集C={t},把t作为聚类的中心;步骤4.3,如果C中敏感属性组个数小于a2,则从T中寻找一个元组ti,t与ti中的敏感属性值属于不同的敏感属性组,且Dis(t,ti)的值最小;C=C∪{ti};T=T‑{ti};直至C中的敏感属性组个数为a2个;用下述公式计算元组t1和t2的距离:
数值型数据之间的距离使用下述公式进行计算:
分类型数据之间的距离使用下述公式进行计算:
步骤4.4,当C中元组个数小于K时,从T中找一个元组tj,使得tj与聚类集C的距离最小;统计聚类集C中与元组tj属于同一个敏感属性组的个数|Sgi|,计算GPleak(Sgi);如果GPleak(Sgi)≤asgi,则进行下面操作,C=C∪{tj};T=T‑{tj};将得到的聚类集C存放在QIS中,K为每个聚类中元组的个数;Gpleak表示组隐私泄漏率,QIS为等价类的集合;步骤4.5,重复前面的步骤,直至T中的数据都经过了匿名化处理;(5)对经过聚类得到的数据进行泛化;将一个聚类内的数据泛化为一个值,具体操作如下:步骤5.1,制定泛化格;步骤5.2,泛化时泛化规则从泛化格底部开始选择,判定能否将所有聚类集进行泛化,如可以则选择该泛化策略,否则根据泛化格向上选取下一个泛化策略;(6)获得经过匿名化的数据集T'。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学;东莞电子科技大学电子信息工程研究院,未经电子科技大学;东莞电子科技大学电子信息工程研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510849304.X/,转载请声明来源钻瓜专利网。
- 上一篇:一种高压断路器操动机构监测方法及系统
- 下一篇:一种充电系统