[发明专利]一种关联规则挖掘中隐私数据的保护方法无效
申请号: | 201010208788.7 | 申请日: | 2010-06-23 |
公开(公告)号: | CN101866405A | 公开(公告)日: | 2010-10-20 |
发明(设计)人: | 朱玉全;孙蕾;陈耿;欧吉顺;梁军 | 申请(专利权)人: | 江苏大学 |
主分类号: | G06F21/00 | 分类号: | G06F21/00;G06F17/30 |
代理公司: | 南京知识律师事务所 32207 | 代理人: | 卢亚丽 |
地址: | 212013 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于数据挖掘中的隐私数据保护技术,具体涉及一种关联规则挖掘中隐私数据的保护方法。该方法包括隐私数据项的确定、初始化工作、隐私数据项的修改及数据的发布步骤。本发明可以有效地保护隐私数据,还可以确保不包含隐私数据项在内的关联规则全部有效,包含隐私数据项在内的绝大部分关联规则仍然有效,且不会产生幽灵规则。在修改记录的选择方面本发明首先考虑了那些不会影响挖掘结果的记录对在隐私数据项上进行交换,其次提出了一种基于最大频繁项目的修改记录选择方法,尽可能选择支持有较大支持数的最大频繁项目集的记录,最大限度地保持原有频繁项目的频繁性,降低了选择修改记录的执行难度,进一步提高算法的执行效率。 | ||
搜索关键词: | 一种 关联 规则 挖掘 隐私 数据 保护 方法 | ||
【主权项】:
一种关联规则挖掘中隐私数据的保护方法,包括以下步骤:(1)隐私数据项的确定由数据拥有者确定关系数据库中需要处理的隐私数据项,记为A;(2)修改前的初始化工作原关系数据库为DB,最小修改率阈值为minXP,minXP表示修改记录数占总记录数的百分比,修改前的初始化工作包括以下步骤:①设置记录修改数变量JXC,其初始值为minXP×|DB|,|DB|为关系数据库DB中的记录数;②给关系数据库中的每条记录i设置一个修改标志flag[i],其值为0或1,0表示该记录未修改过,1表示修改过;③扫描原关系数据库DB一次,求出其所有的频繁1-项目集,删除关系数据库DB中非频繁1-项目所对应的数据项;④根据关系数据库DB中A所对应的值,将关系数据库DB分成两个子数据库DB1和DB2,他们在字段A上的值分别均为1和0;(3)隐私数据项的修改①对于子数据库DB1的每条未修改记录R1,除字段A的值外,如果子数据库DB2中存在与R1完全相同的未修改记录R2,则交换原关系数据库DB中对应于R1和R2记录的数据项A,其他不变;对于每对交换的记录进一步包括下列步骤:i修改变量JXC,JXC=JXC-2;ii修改此两记录的修改标志,对应的修改标志置为1;iii将R1、R2分别加入子数据库DB2和DB1中,即交换它们的位置;②如果JXC≤0,则转⑧;③对于DB1中的任何记录R1,如该记录所支持的频繁项目集的支持数均大于最小支持数阈值,则执行:i修改变量JXC,JXC=JXC-1;ii将原DB和DB1中对应于R1的数据项A的值置为1,R1的修改标志置为1;iii将记录R1从DB1中移到DB2中;iv如果JXC≤0,则转⑧;④将MFISA1分成两部分M1和M2,M1中各元素的支持数等于最小支持数阈值,M2中各元素的支持数大于最小支持数阈值;其中MFISA1为子数据库DB1中最大频繁项目集的集合,此时的最小支持数阈值为minsup×|DB|/|DB1|;⑤根据M1和M2将DB1中未修改记录分成三部分DB11、DB12、DB13,其中DB11中各记录支持M1中的某最大频繁项目集,但均不支持M2中的任何最大频繁项目集;DB12中各记录同时支持M1中的某最大频繁项目集和M2中的某最大频繁项目集;DB13中各记录支持M2中的某最大频繁项目集,但均不支持M1中的任何最大频繁项目集;如果DB13为空集,转⑥步,否则执行:i将DB13中的记录按其支持M2中元素的个数升序排列;ii对于DB13中的第一条记录R1,将原DB和DB1中对应于R1的数据项A的值置为1,R1的修改标志置为1;iii将记录R1从DB1中移到DB2中;iv修改变量JXC值,JXC=JXC-1;v如果JXC≤0,则转⑧;vi如果DB13为非空,转ii;⑥重新统计数据库DB12中的最大频繁项目集,如果DB12为空集,转⑦步,否则执行:i将DB12中的记录按其支持M1中元素的个数升序排列;ii对于DB12中的第一条记录R1,将原DB和DB1中对应于R1的数据项A的值置为1,R1的修改标志置为1;iii将记录R1从DB1中移到DB2中;iv修改变量JXC值,JXC=JXC-1;v如果JXC≤0,则转⑧;vi如果DB12为非空,转ii步;⑦重新统计数据库DB11中的最大频繁项目集,并按其支持M1中最大频繁项目集的个数升序排列,执行:i对于DB11中的第一条记录R1,将原DB和DB1中对应于R1的数据项A的值置为1,R1的修改标志置为1;ii将记录R1从DB1中移到DB2中;iii修改变量JXC值,JXC=JXC-1;iv如果JXC≤0,则转⑧;否则转i;⑧结束,整理结果数据库,并删除修改标志列;(4)数据的发布将修改后的关系数据库发送给关联规则挖掘工具或数据使用者。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏大学,未经江苏大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201010208788.7/,转载请声明来源钻瓜专利网。