[发明专利]一种面向多视图聚类挖掘的个性化隐私保护方法有效
申请号: | 201710717235.6 | 申请日: | 2017-08-21 |
公开(公告)号: | CN107688752B | 公开(公告)日: | 2020-11-20 |
发明(设计)人: | 徐东;李贤;张子迎;孟宇龙;张朦朦;姬少培;王岩俊;吕骏;方一成;王杰 | 申请(专利权)人: | 哈尔滨工程大学 |
主分类号: | G06F21/62 | 分类号: | G06F21/62;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150001 黑龙江省哈尔滨市南岗区*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种面向多视图聚类挖掘的个性化隐私保护方法,属于信息安全技术领域。本发明提出隐私偏序拓扑分类算法(PT,Privacy Topology),针对不同隐私数据的敏感性差异表示问题,先定义隐私关系并构建隐私偏序集,据此设计隐私数据的拓扑分类算法求解隐私线序集。针对隐私数据的多个视图,对原始数据、隐私度、元组敏感度、隐私线序集等视图进行多视图聚类。提出面向聚类的个性化匿名算法(PPOC,Personal Privacy Oriented Classtering),通过可变k‑匿名策略,利用面向多视图聚类的满足个性化需求的隐私保护算法,实现对不同聚类簇以及同簇内部不同元组施加程度有别的个性化保护操作。 | ||
搜索关键词: | 一种 面向 视图 挖掘 个性化 隐私 保护 方法 | ||
【主权项】:
一种面向多视图聚类挖掘的个性化隐私保护方法,其特征在于,包含以下步骤:步骤一 定义隐私关系;隐私数据集合D中的一条记录为多重组d=(d1,d2,…,dn),序偶di=<ai,si>∈d,ai为字段Ai上的原始数据值,si为ai对应的隐私度;称卡氏积D×D的下述子集为D上的隐私关系:R={<d,d'>|d,d'∈D,di=<ai,si>∈d,d'i=<a'i,s'i>∈d',且si≥s'i};若D上的两条记录d和d'具有隐私关系,即<d,d'>∈R,记为:d≥d';步骤二 输入隐私数据集D,包括每个视图数据X(i)(i=1,2,3,4),原始数据记录表和对应的隐私度记录表聚类簇数目期望值K,调节参数γ;初始化队列Q为空,置偏序隐私层L=1,并生成隐私偏序集<D',R'>;其中,记A'=(Ai,Ai+1,……,Ai+k)为原始数据模型A的一个属性子集(k≤n),对应的隐私度子模式为S'=(Si,Si+1,……,Si+k),D中每条记录去掉A'和S'中未出现的属性字段后所得的子集记为D',并设R'为D'上的隐私关系,则称序偶<D',R'>为隐私偏序集合,简称隐私偏序;若数据集合对于隐私数据b∈B,且B中不存在隐私数据x,使得b≠x且b≥x,那么隐私数据b∈B称为B的一个极小隐私元;B的所有极小隐私元构成的集合为B的极小隐私集;隐私数据集的第一个极小隐私集对应的偏序隐私层数为1,删掉第一个极小隐私集后,剩余数据集的极小隐私集对应的层数为2,依次类推,层数逐次增加1,直到删完所有数据为止;步骤三 判断D是否为空,若为空则得到隐私线序集Q,Q中存储三类值:隐私数据记录指针、偏序隐私层号和相对隐私秩,若D不为空执行下一步;步骤四 求解D的极小隐私集E,置E'=E,,计算e在E内的相对隐私秩;其中,极小隐私集E中隐私秩最小的隐私数据e为B的一个首隐私极元;记隐私数据d的隐私秩为:|d>=-Σd′∈Dsign(d-d′)|‾]]>式中,d和d'为给定含n个属性的两条隐私数据,二者对应各属性的隐私度分别为s=(s1,s2,…,sn)和s'=(s'1,s'2,…,s'n);|>为求给定隐私数据的隐私秩的专用符号;符号表示若x>0,则置x=0;sign()为符号函数;步骤五 任选E'内一个首隐私极元e,并置Q队尾节点的记录指针指向e,层数为L,置相对隐私秩为|e>;置E'=E'‑{e},判断E'是否为空,若不为空,反复本步骤;步骤六 置D=D‑E,偏序隐私层数L=L+1,判断D是否为空,若不为空返回步骤三;步骤七 从步骤二中得到每个视图数据X(i)(i=1,2,3,4),聚类簇数目期望值K,调节参数γ;步骤八 随机填充矩阵G使得每行恰有一个1,其余全为0;生成对角矩阵D(i);步骤九 计算对角阵步骤十 更新中心矩阵步骤十一 更新聚类指示矩阵G:minGΣi=14D~(i)||X(i)-C(i)G||22,s.t.Gjk∈{0,1},Σk=1KGjk=1;]]>步骤十二 更新对角矩阵其中e(i)j是E(i)=X(i)‑GC(i)的第j行;步骤十三 更新权重其中:H(i)=Tr{(X(i)‑C(i)GT)D(i)(X(i)‑C(i)GT)T};步骤十四 重复步骤七至步骤十三,直至收敛或超过设定的执行次数;步骤十五 得到聚类指示矩阵G,各视图的聚类中心矩阵C(i)及权重λ(i),i=1,2,3,4;步骤十六 对S进行主成分分析,取第一主成分系数u(1)=(u1,u2,…,un)作为属性敏感度;步骤十七 求S每行记录sj=(sj1,sj2,…,sjn)的元组敏感度置Ts=(S1,S2,…,Sm)T;步骤十八 记第i个视图的样本矩阵表示为X(i),构造如下所示的多视图K‑均值聚类目标函数:minC(i),G,λ(i)Σi=1M(λ(i))γ||X(i)-GC(i)||2,]]>s.t.Gjk∈{0,1},Σk=1KGjk=1,Σi=1Mλ(i)=1;]]>式中,C(i)为第i个视图的聚类中心矩阵;G为聚类指示矩阵,由约束条件知,其每行恰有一个1,其余全为0,若Gjk=1,表明第j个样本在第k个聚类簇中;λ(i)为第i个视图的权重;γ是控制权重分布的调节参数。M为视图个数,本发明包括原始数据、隐私度、元组敏感度和隐私线序集等4个视图;置X(1)=A,X(2)=S,X(3)=Ts,X(4)=Q,X={X(i)|i=1,2,3,4};步骤十九 分别以平均偏序隐私层号和平均相对隐私秩为主、次关键字,对聚类簇降序排序,排序后的聚类簇序列记为V=(v1,v2,…,vK);步骤二十 产生K以内可重复的K个随机正整数序列R,并降序排序得R=(r1,r2,…,rK);步骤二十一 定义数据集合A',用以存放匿名后的数据,并置A'为空;步骤二十二 取A中的第t条记录at;基于G,查找at所属聚类簇vp;求vp的平均隐私度avgp;取at的隐私度高于avgp属性作为敏感属性,其余作为准标识符;对at进行rp‑匿名操作,匿名后的记录存入A';重复步骤二十二m次,然后输出保护后的发布数据A'。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710717235.6/,转载请声明来源钻瓜专利网。