[发明专利]基于OPTICS聚类的医疗数据异方差差分隐私保护方法在审
申请号: | 201811265704.6 | 申请日: | 2018-10-29 |
公开(公告)号: | CN109388972A | 公开(公告)日: | 2019-02-26 |
发明(设计)人: | 王英龙;孙宗锟;舒明雷;崔焕庆;赵慧奇;成曦;平永杰;燕婷 | 申请(专利权)人: | 山东科技大学;山东省计算中心(国家超级计算济南中心) |
主分类号: | G06F21/62 | 分类号: | G06F21/62;G16H10/60;G06K9/62;G06F16/906 |
代理公司: | 济南泉城专利商标事务所 37218 | 代理人: | 支文彬 |
地址: | 266590 山东省青岛*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于OPTICS聚类的医疗数据异方差差分隐私保护方法,通过引入单链表update和指针S使得OPTICS聚类算法的时间复杂度降低,并采用了K‑匿名和差分隐私保护的结合使得其安全性得到进一步增加,为了保证数据的可用性,采用异方差加噪的方式,使得数据可用性明显改善,再此过程中,我们假设攻击者在最大知识背景下,求得能够成功获取隐私信息的概率,设置隐私参数的上界,保证在隐私保护的范围内,有效的平衡了数据可用性和隐私安全之间的关系。 | ||
搜索关键词: | 隐私保护 异方 数据可用性 医疗数据 聚类 时间复杂度 可用性 聚类算法 隐私安全 隐私参数 隐私信息 知识背景 单链表 上界 指针 保证 攻击 引入 概率 平衡 成功 | ||
【主权项】:
1.一种基于OPTICS聚类的医疗数据异方差差分隐私保护方法,其特征在于,包括:a)处理医疗数据,将医疗数据中的数据标识符删除,把医疗数据中的离散属性用固定整数表示,将医疗数据全部数字化后得到医疗数据D;b)用户自定义K‑anonymity机制的隐私参数K,将医疗数据D基于准标识符进行泛化处理,得到泛化后的医疗数据集D’;c)将泛化后的医疗数据集D’作为OPTICS算法的聚类数据,用户自定义OPTICS算法中的邻域半径r及最小个数M,建立OPTICS算法中种子队列L1、结果队列L2及指针S,初始化种子队列L1、结果队列L2为空队列,定义指针S;d)遍历整个医疗数据集D’,计算医疗数据集D’中每两个样本之间的欧几里得距离,如果医疗数据集D’中某一个点周围的M个或M个以上的点与其之间的欧几里得距离小于邻域半径r,则该点为核心点,将核心点创建一个对应的单链表update,以每个核心点为圆心,将核心点邻域半径r内包含的所有点以及各点与核心点之间的可达距离存入该核心点的单链表update中;e)选取医疗数据集D’中但不在结果队列L2中的一个样本,设此样本为样本点p,将p加入种子队列L1中,将指针S指向该样本点p,并执行步骤f),如果医疗数据集D’中所有的样本点都已存在于结果队列L2中则执行步骤j);f)判断种子队列L1是否为空,如果为空则返回执行步骤e),如果不为空则执行步骤g);g)在种子队列L1中选取指针S指向的样本点p,如果样本点p不是核心点,则设置该样本点的可达距离为undefined,设置完成后执行步骤i),如果样本点p是核心点,则在样本点p的单链表update中任意选取一该样本点,设为样本点q,之后执行步骤h);h)如果样本点q对应的样本不在种子队列L1队列内,则把样本点q对应的样本以及此时q与p对应样本之间的可达距离放入种子队列L1内,之后执行步骤i),如果样本点q对应的样本在种子队列L1队列内,将种子队列L1中此样本对应的可达距离与样本点q和样本点p之间的可达距离作比较,若样本点q和样本点p之间的可达距离小于种子队列L1中此样本对应的可达距离,则将种子队列L1中此样本对应的可达距离替换为样本点q和样本点p之间的可达距离,执行步骤i);i)在种子队列L1删除指针S对应的样本点p以及样本点p在种子队列L1中对应的可达距离,并将删除的样本点p及其在种子队列L1中记录的可达距离写入结果队列L2中,遍历种子队列L1中的所有点,之后遍历种子队列L1中的所有点,将指针S指向种子队列L1中对应的可达距离最小样本点,并设此样本点为p,之后返回步骤f);j)以结果队列L2中的样本点的数目作为横坐标、结果队列L2中各样本点对应的已存储的可达距离为纵坐标,生成可达图,利用ξ‑cluster算法计算得到可达图中的高频数据集、低频数据集以及离散点;;k)利用公式
对高频数据集进行添加噪声,利用公式
对低频数据集进行添加噪声,其中Lap为拉普拉斯噪音,εi为高频数据的隐私参数,εj为低频数据的隐私参数,εi:εj=15:1,εi+εj=ε,ε=0.42。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东科技大学;山东省计算中心(国家超级计算济南中心),未经山东科技大学;山东省计算中心(国家超级计算济南中心)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811265704.6/,转载请声明来源钻瓜专利网。