[发明专利]防隐私泄露的大数据生成方法和系统有效
申请号: | 201711156094.1 | 申请日: | 2017-11-20 |
公开(公告)号: | CN107886009B | 公开(公告)日: | 2020-09-08 |
发明(设计)人: | 李影;岳阳;易可欣;吴中海 | 申请(专利权)人: | 北京大学 |
主分类号: | G06F21/62 | 分类号: | G06F21/62;G06F17/18;G06K9/62 |
代理公司: | 北京万象新悦知识产权代理有限公司 11360 | 代理人: | 黄凤茹 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 隐私 泄露 数据 生成 方法 系统 | ||
本发明公布了一种防隐私泄露的大数据生成方法及系统,涉及隐私保护及数据挖掘技术领域。通过数据合成方法,生成与原始数据相似但不包含真实敏感信息的数据;所生成的合成数据可供数据分析算法使用;数据分析算法使用所生成的合成数据可防止大数据分析过程中的隐私泄露。包括:对原始数据进行预处理;估计特征的概率分布;生成最近邻模型;生成随机样本;验证随机样本;后处理。系统包括数据处理模块、随机样本生成模块和随机样本验证模块。本发明通过合成数据的方式实现大数据生成,既能防止原始数据中的隐私泄露,同时又能保证数据样本的完整、不增加大数据分析的开销。
技术领域
本发明涉及隐私保护及数据挖掘技术领域,尤其涉及一种防止隐私泄露的大数据生成方法和系统。
背景技术
近几年来,随着大数据相关技术的发展,大数据分析得到了广泛的应用,深入到了各个领域和各个行业。借助大数据分析技术,购物网站可以向用户推荐感兴趣的商品,提高销售收入;景区可以预测客流高峰,提前做好应对措施保证服务质量;银行可以分析每笔交易记录,防止非授权交易的发生。尽管大数据分析给我们的生活和工作带来了诸多便利,也带来了一些隐私方面的问题。
为了进行大数据分析,大量与用户相关的数据,包括用户个人信息、偏好、浏览记录等,都被相关企业和组织收集起来以便进行分析。这些数据因为包含了用户的个人信息而变得非常敏感,在使用时稍有不慎就会造成个人隐私泄露。例如,用户的购物数据中通常包含电话号码、家庭住址以及银行卡号等信息,如果这些数据被泄露出去,会给用户造成很多麻烦并极易造成损失,包括接到骚扰电话、银行卡被盗刷、家中财务失窃等。同时,这些包含敏感信息的数据通常只能在企业和组织内部使用,无法将这些数据公开或开放给第三方使用,这也对大数据分析造成了一定的限制。
对于大数据分析中的数据隐私问题,目前常用的方法包括对数据进行脱敏处理、对数据进行加密或随机扰动。对数据脱敏处理是指将数据中包含敏感信息的部分删除,例如将数据中与用户相关的电话、年龄、住址等信息删除,这样使得数据中不再包含敏感的隐私信息;对数据进行加密或随机扰动是指将数据中的敏感信息通过加密算法进行加密处理,或者通过随机函数对原始数据进行随机扰动,使得原始的敏感信息不可见。
上述现有常用方法尽管能够解决有敏感数据导致的隐私泄露问题,但同时也给大数据分析带来了负面影响。例如,数据脱敏处理删除了原始数据中的一些信息,导致数据不完整,不利于深入分析;同时,脱敏处理也仅仅针对比较明显的隐私信息(如地址、电话等),而未被脱敏处理的部分(如用户浏览记录、购买偏好等)也能透漏出用户的一些隐私习惯。而对数据进行加密或随机扰动的方法,尽管敏感信息已经不可见,但由于加密和扰动操作增加了大数据分析相关算法的额外开销,降低了算法的效率;同时原始信息被修改,会对数据使用者造成一定困扰,从而影响数据分析的效果。因此,目前尚缺乏一种既能最大限度的保持原始数据的完整性、不增加大数据分析开销的同时又能防止隐私信息泄露的方法。
发明内容
为了克服上述现有技术的不足,本发明提供了一种防隐私泄露的大数据生成方法和系统,通过数据合成的方法生成与原始数据相似但不包含真实敏感信息的数据,以供数据分析算法使用来防止大数据分析过程中的隐私泄露。其中,本发明生成的合成数据与原始数据在统计上相似,即数据的平均值、方差等相近;同时,本发明生成的合成数据在结构上与形式上也与原始数据相似,基于合成数据训练的大数据分析算法(常用算法主要包括两类:回归和分类)可同样用于原始数据的分析任务,反之亦然。本发明既能保持数据的完整、不增加大数据分析的开销,同时也能防止隐私信息泄露。
本发明提供的技术方案是:
一种防隐私泄露的大数据生成方法,通过数据合成方法,生成与原始数据相似但不包含真实敏感信息的数据;所生成的合成数据与原始数据在统计上、在结构上与形式上均与原始数据相似,可供数据分析算法使用;数据分析算法使用所生成的合成数据可防止大数据分析过程中的隐私泄露;包括如下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711156094.1/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置