[发明专利]一种采用主成分分析的高维数据差分隐私发布方法在审
申请号: | 202210019781.3 | 申请日: | 2022-01-10 |
公开(公告)号: | CN114372527A | 公开(公告)日: | 2022-04-19 |
发明(设计)人: | 褚治广;王明月;张兴;史伟 | 申请(专利权)人: | 辽宁工业大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F21/62;G06N3/04 |
代理公司: | 北京远大卓悦知识产权代理有限公司 11369 | 代理人: | 王雪娇 |
地址: | 121001 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 采用 成分 分析 数据 隐私 发布 方法 | ||
本发明公开了一种采用主成分分析的高维数据差分隐私发布方法,包括:步骤一、通过PCA方法对原始高维数据进行降维处理,得到投影矩阵Z;步骤二、通过SOM神经网络聚类将敏感属性分为c个簇,计算c个簇的敏感度,根据敏感度不同设定簇的敏感级别;步骤三、根据敏感级别依次加入拉普拉斯机制对不同类的属性添加噪声。通过PCA算法对高维数据进行降维,再通过SOM神经网络聚类将属性划分为不同类,根据敏感度利用拉普拉斯机制对不同类的属性添加相应的噪声,降低了噪声的添加,并使属性加噪更加合理,实现了个性化隐私保护,保证了发布数据的可用性。
技术领域
本发明涉及一种差分隐私发布方法,尤其涉及一种采用主成分分析的高维数据差分隐私发布方法。
背景技术
在大数据时代,数据规模快速扩大,以高维形式存在的数据逐渐增多,例如贸易交易数据、WEB使用数据等,在实际应用中对高维数据进行挖掘和分析可以获得许多有价值的信息,与此同时也面临着个人隐私信息泄露的问题。
目前的隐私保护技术包括分组技术、加密技术和失真技术。分组技术可以通过抑制、泛化、聚类、分解和置换等方法实现,包括k-匿名、l-多样性、t-闭合以及它们的改进算法;加密技术通过对原始数据集加密实现敏感信息的安全发布,包括安全多方计算、同态加密等;失真技术对原始数据进行干扰,实现原始数据的隐藏,包括差分隐私、随机化和阻塞等方法,差分隐私保护技术的应用和发展最为广泛。高维数据发布对隐私保护的需求较高,因此需要差分隐私保护方法对发布的高维数据进行隐私保护。通过对输出的结果加入噪声,使其对数据进行扰动,对个人提供的隐私保护优于传统隐私保护方法。高维数据的发布在很多情况下需要使高维数据降低到合适的维度,再进行隐私发布处理,使发布的低维数据尽可能接近原始数据集,保持原始数据集的价值最大化,并且保证发布数据的安全性。
目前,对于高维数据发布的隐私保护研究还很少,且都存在缺陷。Zhang等人提出PrivBayes数据发布算法,随机选择首个属性,计算属性节点间的互信息,选取具有最大互信息的属性节点构建贝叶斯网络,减少数据集的属性数量,以减小数据集规模,构建的贝叶斯网络与原始高维数据集的联合概率分布近似相等,实现高维数据集的降维,对贝叶斯网络使用差分隐私机制。然而该算法存在随机选择首个属性字段;不会首先选择敏感属性;形成的贝叶斯网络不唯一;对贝叶斯网络模型中的属性字段隐私保护时没有明确的顺序;无法准确对属性字段值进行合适的隐私保护等缺陷。王良等人提出加权贝叶斯网络算法,在差分隐私保护下,通过对属性字段节点加入权重值来保证属性字段值的多样性,与原始高维数据更加接近,并且优化了差分隐私,使该算法发布的数据更准确和安全,但是该算法的结果只是近似的,应该对所有元组进行分析进行差分隐私保护下的高维数据发布。任雪斌等人提出基于贝叶斯网络的高维数据本地差分隐私发布,构建Bayes网络使高维数据降维,生成多个相互独立的低维数据集,并且与原始数据集的分布相似,增加隐私保护强度。DP-SUBN实现分布式下发布高维数据。Chen等人提出JTree方法,使用稀疏向量技术搜索相关的属性对,利用联合树建立能代表属性关系的图,以此得到边缘分布,估计对应的联合分布,然而JTree不满足差分隐私,并且可能出现局部最优,增大因加噪造成的误差。Day等人提出DPSence方法,在满足差分隐私的条件下可以通过阈值技术控制敏感性,使数据发布更加准确,但是没有考虑属性间的关联。Su等人提出PrivPfC算法,通过指数机制和质量函数,在一个步骤单独选择一个网格,该网格将数据域划分为多个单元。然后将Laplace噪声注入到选定网格定义的直方图中,最终发布噪声直方图,最大化直方图分类器正确分类记录的期望数量,该算法依然没有考虑属性之间的关联性。文献中提出的属性分类方法根据两两属性间互信息的大小对属性进行分类,但是分类标准缺乏客观性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于辽宁工业大学,未经辽宁工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210019781.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于海洋牧场生态修复的水下取样装置
- 下一篇:多层置物篮及其智能生产设备
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置