[发明专利]一种多隐私策略组合优化的多源数据融合隐私保护方法有效

专利信息
申请号: 202110014817.4 申请日: 2021-01-06
公开(公告)号: CN112765653B 公开(公告)日: 2022-11-25
发明(设计)人: 周志刚;白增亮;王宇;梁子恺;吴天生 申请(专利权)人: 山财高新科技(山西)有限公司
主分类号: G06F21/62 分类号: G06F21/62;G06K9/62
代理公司: 暂无信息 代理人: 暂无信息
地址: 030006 山西省太原*** 国省代码: 山西;14
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 隐私 策略 组合 优化 数据 融合 保护 方法
【说明书】:

发明数据发布领域,具体涉及一种多隐私策略优化组合优化的多源数据融合隐私保护方法。提出一种基于重匿名(over‑anonymity)的多方数据融合架构,防止融合后的数据出现隐私泄露的情况。进一步地,数据融合的现实意义在于为用户提供更全面的数据基础,以便在此基础上进行广泛的知识挖掘。为此,设计了一种多隐私保护策略组合优化方案,在满足各方隐私约束的同时,最大限度地提高融合后数据的可用性。该策略将多源多隐私约束的数据融合映射为一张超图,通过使用启发式规则逐一在超图上选择、求解并消除各个超边,超边被消解的过程也是隐私约束逐一实现的过程,并以此制定一个数据融合方案。

技术领域

本发明数据发布领域,具体涉及一种多隐私策略组合优化的多源数据融合隐私保护方法。

背景技术

多源跨平台、数据应用跨域是大数据最突出的特征,在大数据时代由于不同应用领域数据爆炸式增长,单一类型的数据(如位置数据、社交数据、Cookie日志、购物网站流水等)难以满足人们对上层复杂应用服务的需求。例如,Bob需要App搜索附近喜欢打篮球的好友,这个需求的实现需要位置数据与社交数据的有机融合。不仅个人对数据有跨域融合的需要,企业内部不同部门间、不同质企业间甚至企业与政府部门间对数据跨域融合也存在现实的需求应用,例如精准广告推送、网约车优化管理、智能城市地铁线路规划等,都需要不同领域平台的数据源所有者在各自所拥有的数据层面展开深入的融合协作。然而,各个平台的数据往往极具“使用价值”,可能包括了用户的身份信息、行为信息、财务信息甚至疾病信息等敏感/隐私信息,直接发布原始数据必将导致用户隐私的泄露。

为了防止用户隐私的泄露,各个数据源平台在进行大数据融合发布之前,需要先对各自平台的数据集进行脱敏处理(如扰动、加噪、泛化等),传统的匿名类隐私保护方法大多只针对单数据源的数据进行隐私保护,不能有效地应对大数据深度关联分析所带来的非显性隐私信息泄露问题;此外,单一的隐私保护方法已经不能满足数据使用者个性化的隐私需求,正如对各个来源数据的局部隐私保护并不能避免融合后全局数据隐私泄露的风险(例如Alice在A购票网站购买一张去慕尼黑的机票,并在B旅游公司的网页上浏览慕尼黑的旅游景点。而A、B两公司分别对外发布信息,其中A公司采用基于3-匿名的信息泛化技术,即将“去慕尼黑的机票”泛化为“去欧洲的机票”,B公司采用3-多样性技术,即将与Alice同时浏览该公司网站的两个用户的浏览行为作为一组进行发布{2017-07-11 9:30:{慕尼黑:新天鹅堡,日本:富士山,美国:麻省理工学院}}。假设敌手已知Alice有出国旅游的计划,并从窃取的上网记录中获知其登录过A和B公司的网页,通过关联A、B两公司发布的信息,敌手可以精确地推出Alice将在何时去慕尼黑-新天鹅堡的旅行路线)。这也正是面向大数据发布隐私保护所面临的最本质问题“分布式大数据多源融合后,被攻击者构建数据关联分析所导致的隐私泄露”。一个朴素的方法是对自然连接的融合数据进行隐私保护方法级粒度的组合。然而,隐私保护方法级粒度的组合可能会导致对隐私信息的“过度保护”,从而严重降低数据的可用性,如图1所示:两方在数据融合中,方案一(先进行5-匿名,再进行3-多样性)需要添加29条噪声,方案二(先进行3-多样性,再进行5-匿名)需要添加20条噪声,所以,在隐私保护的大数据融合发布领域,面向数据可用性最大化的多隐私保护方法细粒度组合优化依然是一个开放性问题。

在数据发布的隐私保护领域,传统的隐私保护算法包括差分隐私、k匿名、l-diversity匿名、t-closeness匿名等,一些学者对这些传统算法的改进也具有里程碑意义,如Wang等人借助语义层级树,通过将数量不及匿名需求的记录项进行语义泛化,以使得记录项在更为宽泛的语义下实现k-匿名,然而,记录项泛化技术的使用造成了不可逆的信息损失,且对高维稀疏数据使用k-匿名准则将使得数据的可用性大幅降低;Brijesh B等人提出一种改进l-diversity匿名的方法,在运行时间方面有显着改善,并且与现有方法相比,其信息损失也更小,同时由于初始等价类中记录的紧密排列,提供了相同级别的隐私。总体来看,这些传统的隐私保护模型通常只适用于特定场景下的静态数据发布。然而,大数据发布所面临的风险体现在其发布过程的动态性,且具备多源跨平台发布的特点,这就需要防止攻击者对多源融合后的数据进行关联分析,进而破坏数据的匿名性。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山财高新科技(山西)有限公司,未经山财高新科技(山西)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110014817.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top