[发明专利]一种去趋势分析差分隐私保护的直方图数据发布方法有效

专利信息
申请号: 201810228544.1 申请日: 2018-03-19
公开(公告)号: CN108446568B 公开(公告)日: 2021-04-13
发明(设计)人: 高岭;杨旭东;罗昭;毛勇;孙骞;王帆 申请(专利权)人: 西北大学
主分类号: G06F21/60 分类号: G06F21/60;G06K9/62
代理公司: 西安西达专利代理有限责任公司 61202 代理人: 刘华
地址: 710069 陕西省西安*** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要: 一种去趋势分析差分隐私保护的直方图数据发布方法,将判断信号序列趋势的方法引入到直方图异常分布的判断中来,大量的离群点会造成数据分布的波动性比较大,平稳性降低,从这个角度将直方图桶计数分布情况看做连续的数字信号进行数据离群点。同时,针对于传统方法会造成大量离群点的聚类目标函数,加入离群均衡约束与相似惩罚约束来均衡相似桶与离群桶数据对于聚类的影响,减少离群的发生;对于离群数据基于离群相似度进行离群数据微聚类。
搜索关键词: 一种 趋势 分析 隐私 保护 直方图 数据 发布 方法
【主权项】:
1.一种去趋势分析差分隐私保护的直方图数据发布方法,其特征在于,包括以下步骤:1、去趋势直方图处理:首先,通过去趋势相关系数得到直方图桶计数的整体有序程度进行判断;其次,将无序的直方图序列分为若干子序列后进行有序调整,通过对比与最小有序子序列的去趋势相关系数判断是否符合整个序列的升序或者降序,对不满足的子序列进行有序调整,得到整体有序的直方图序列;2、直方图序列去趋势分析:去趋势交叉相关分析(DCCA)是一个有效的,用于度量非平稳时间序列交叉相关性的模型,首先计算两个时间序列的“轮廓”;其次将其分为[N/S]个不相关的长度s的区间,特点为相邻区间内数据的跳跃性小;紧接着使用二次最小拟合函数拟合并消除局部趋势,计算局部去趋势协方差函数;重复以上过程,得到对应不同标度s的波动函数,最后根据波动函数数据衡量表征序列是否具有交叉相关关系,即相关、相反和无关三种关系,借鉴去趋势分析的思想,本文采用去趋势分析进行直方图序列进行有序判断;由上述分析可知根据序列的总体离散度的去趋势分析,可以判断序列的有序程度,首先将直方图计数看做一个有序序列,计数为序列中整体去趋势相关分析,将基于时间的两条序列定义为桶计数序列中的前后序列,根据波动系数判断,即α=0.5,说明序列不相关,是一个独立的随机过程,即当前状态不会影响将来状态,α<0.5,说明如果时间序列是反相关的,即在某一个时间段和它的下一个时间段的趋势是相反的,通过对比子序列的波动性函数的标度指数可以得到总体序列离散性分析,即判断序列是否有序,当序列中的数据的总的波动性指标函数大于阈值,则认为直方图序列离散度过大需要调整,即序列不满足有序约束,根据去趋势分析中当波动函数标度指数小于0.5即为反相关可推理得到直方图去趋势相关阈值α为a<0.5Nc,其中Ns=N/L N为总的数据长度,L为最小有序序列长度;3、直方图去趋势有序调整:根据整体数据的去趋势分析得到直方图序列的整体有序程度,对于不满足有序约束的直方图序列进行调整,定义最小有序序列,初始最有序序列,即在原始桶计数中具有最短长度的有序,升序或者降序的序列。通过根据最小有序序列将直方图序列划分为多个子序列,便利所有直方图序列中的子序列并与最小有序子序列对比,当两个序列之间存在反相关的关系时对所遍历的子序列进行调整,具体算法如下:定义序列相似度两个子序列之间的相似度采用序列内元素欧式距离与序列长度差值的乘积来衡量具体如下:Wd=L(Ci)‑L(Cj),故序列相似度为Ops(Ci,Cj)=Wd*dis(Ci,Cj),基于趋势分析的离散度递减抽样排序,输入:原始直方图H,输出:近似有序直方图序列H’,步骤如下:1)从原始数据中找到最小有序序列,且长度为L;2)根据L划分原始序列为Ns=N/L个不相关的等长序列;3)为防止末端信息丢失,对序列的逆序做同样操作;4)以正比于概率抽取响应的子序列:5)计算每个直方图序列轮廓其中,H(j)是序列中第j个数据,是序列的平均值;6)在每个区间v内,分别利用最小二乘法拟合数据,滤去该趋势后的时间序列记为Yt(i),表示原序列与拟合值之差,即Ys(i)=Y(i)‑Ps(i)其中,Ps(i)为二次拟合函数;7)计算累积去趋势时间序列的波动均方根8)通常F(n)会随着n的变大而增大。log F(n)对logn的斜率决定尺度指数(自仿射参量)α,这个指数是一个Hurst指数,若双对数图的曲线是一条直线,就表示它们的自相似性可以由下式表示F(n)∝nα;9)对于波动系数α小于等于0.5的序列进行排序调整;10)重复以上过程直到循环得到最后的序列;4、直方图聚类采用聚类算法首先对于初次聚类的所有桶的聚类函数进行聚类,在聚类函数中加入相似偏好惩罚约束以及离群影响均衡约束,对于相似数据以及离群数据的对聚类的影响都做到了均衡,其次对于聚类后存在的离群点基于离群相似度的二次聚类;1)直方图桶聚类为了均衡聚类过程中离群数据的影响,在模糊聚类目标函数中加入了离群度函数,并对由于离群点影响的目标函数的偏大进行修正,以及对目标函数中奇异值造成的函数过大进行惩罚,违反离散度的相似偏好惩罚约束:为了减少同样数据全都聚集在一起的特殊情况,加入相似惩罚因子,集合中含有的相似数据越多越大,目标函数的选取影响聚类的效果,在聚类目标函数中加入相似性惩罚约束以及离群加权约束有助于平衡离群点和相似点对于聚类的结果,从而得到更好的聚类效果,本次聚类的目标函数由三部分组成,误差函数、相似约束以及离群贡献均衡数据划分:H为原始直方图桶计数,Ci为对原始数据集的划分,即C1={H1,H2…Hi},C2={Hi+1…Hi+n},…,Cj={Hi+n+1…},其中,Hi属于H;离群贡献均衡约束首先,因为邻域的数据影响是离群的关键衡量因素,所以根据与邻域数据的关系来判别数据聚类后对于桶合并数据集的影响直方图邻域:直方图数据邻居是指在排序后存在前后邻近关系的直方图,将这种关系表示为S(Hi,Hj)={Hi:|Hi‑Hj|<ε},其中Hi∈H;直方图邻域集合:所有存在前后邻居关系的直方图集合,并满足直方图邻域关系的所有直方图集合N(Hj)={Hj|S(Hj,Hi)=true,Hj∈H\Hi},S(Hj,Hi)表示直方图Hi与Hj存在的邻域关系,为了减少桶合并的开销,直方图邻域集合主要依据桶计数的差值来衡量;直方图加权距离:Hi∈H,XHi为直方图的桶计数,wij为直方图离群贡献度,且0<w<1,则直方图桶Hi与Hj之间的加权距离为其中w=w‑x’,X’代表直方图均值,偏离均值越远代表离群贡献度越大,从上式可以看出w越大证明离群度越大;直方图邻域距离:直方图桶的邻域距离是指直方图与其邻域中所有直方图的加权距离的平均值,即其中N(Hj)代表邻域集合内的直方图数量,为了消除邻域中极值对邻域距离计算的影响,采用剔除平均的方法,先剔除邻域中的极值距离,然后再计算直方图与邻域的平均距离.直方图邻域离群系数:直方图的邻域距离与其邻居进行比较得到直方图在邻域空间上的偏离程度,即直方图对于即将聚合的划分Ci的局部离群系数,则离群均衡约束为:其中,为邻域集合中直方图数量与直方图总数量之比;相似偏好惩罚约束当数据集中有大量相似的或者相同的桶计数值中,任何一点的差异会造成数据不能聚类,造成大量离群点的存在,采用离散熵的概念对于聚类簇中相似桶的影响从而减少相似数据桶对于离群的负面影响,具体如下:当数据集划分Ci={H1,H2.....Hn},其中Hi+1....Hj之间数据离散度小于某个值,Hi‑Hj<ó则其为相近或相似,Count(Hi Hi‑Hj<ó)>ó1时间,造成的数据产生的离群风险会显著增加,依据传统自适应聚类函数,会造成Hi+1为离群点,故为了减少这种情况,使用离散度来对这样的情况进行惩罚约束,数据计数值之间的比值可以有效表明数据集中的离散度:其中,i>j Xi,j属于Ci信息熵可以有效表明数据的离散程度,故聚类的离散程度如下:其中pij=P(x)log P(x)比值越大,相似性越低,因为聚类目标函数是要求得最小值,故相似偏好惩罚约束只有为正才能起到惩罚作用;聚类目标函数设计经过上述分析,为了减小离群点的出现,均衡数据的发布隐私性和可用性,目标函数设计如下:其中,是自适应权重系数,目标函数应该考虑形成的聚类的集合不仅类内距离最小,并且对于形成集合产生离群点的能力也应该最小。并用离群贡献率来进行衡量;2)直方图离群数据微聚类当加入离群均衡后依旧存在的离群数据,根据离群数据相似度对直方图进行微聚类Ci,并对聚类形成的簇添加噪声后进行数据发布,首先,为了度量不同离群数据集之间的差异,引入离群划分相似度OPS,如果Ck∈X,k=1,2...,K,K<n,满足:1)Ck≠Θ;2)Ck1∩Ck2=O(k1≠k2);3)C1∪C2∪C3...∪Ck=H,则{C1,C2...Ck}构成X的一个划分。Cd={XOd,X‑XOd}表示含有离群数据集XOd的一个数据划分,同理Cs={XOs,X‑XOS}表示另一个离群数据集划分,则其相似度OPS可表示为:其中,fsup为Ck支持度,fcon为Ck的置信度,finc为Ck的包含度,cis=card(XOd∩XOs),card表示集合的势,离群划分相似度,G的相似程度,ops(Cs,Cd)的值越大说明离群XOd与XOs总体更趋向一致。而支持度、包含度与置信度则从不同角度表明其趋近程度,支持度越大说明XO,与XOd总体更相似,包含度表示XOS,正确反映XOd的程度,而置信度则代表XOs自身的正确程度.显然,0≤ops(Cd,Cs)≤1,而ops(Cd,Cs)=1当且仅当XOd=XOs;5、直方图的相似约束离群均衡的聚类算法:根据排序后的直方图,在不给定分组具体个数的情况下自左至右的贪婪划分是聚类的基本思想。聚类过程中唯一考量的是聚类目标函数,聚类过程就是选取最小目标函数的过程。其中分为三种情况来计算:1)当H与当前簇合并时,目标函数为2)当H不与当前簇合并而是与下一个簇合并时,目标函数为3)当H单独聚类,形成离群数据时,由于单独形成一类,并没有重构误差,所以err(Ci∪H)=0,故目标函数为聚类主要根据当前目标函数的大小来选择H是否聚类算法:均衡直方图约束的聚类算法输入:直方图H={H1,H2...Hn}输出;聚类后的数据划分C={C1,C2,...Cn},Q={Q1,...Qn}最后将合并好的簇加入拉普拉斯噪声,实现最终的差分隐私。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北大学,未经西北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201810228544.1/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top