[发明专利]基于自适应数据域划分的保隐私高维数据范围查询方法有效
申请号: | 202110994794.8 | 申请日: | 2021-08-27 |
公开(公告)号: | CN113722558B | 公开(公告)日: | 2023-05-02 |
发明(设计)人: | 程鹏;杜林康;孙铭阳;陈积明 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F16/903 | 分类号: | G06F16/903;G06F21/62;G06F17/18 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 刘静 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 自适应 数据 划分 隐私 范围 查询 方法 | ||
本发明公开了一种基于自适应数据域划分的保隐私高维数据范围查询方法,本发明多组分批收集用户数据,并根据上组用户聚合结果自适应调整数据域划分方式,通过比较子数据域频率估计值和划分阈值的大小,确定是否进一步划分子数据域,相比现有数据域静态划分方式更加灵活。通过设置合理的分段数和划分阈值可以有效降低发布数据的查询误差率,在相同隐私保护程度下,提升聚合结果精度。将待收集属性两两组合分别进行频率分布估计,并采用最大熵优化由二维频率估计结果计算高维范围查询结果,相比于直接处理高维数据域,进一步提高聚合结果精度并大大降低计算和存储开销。交互过程利用本地差分隐私技术对用户数据进行扰动处理,保护了用户数据的隐私。
技术领域
本发明属于数据隐私保护领域,尤其涉及一种基于自适应数据域划分的保隐私高维数据范围查询方法。
背景技术
随着人们对个人隐私权的重视,数据收集者在采集分析数据过程中需要考虑用户敏感数据的保隐私。利用本地差分隐私技术,用户在本地对自己的真实数据进行扰动后上传,可以达到数据保隐私的目的。对于范围查询任务,现有方法按照数据维度可分为两类。对于低维(1维)数据场景,Wang等[1]提出基于完整B叉树结构对整个数据域进行多力度层次分解,并通过累加不同粒度频率估计值来回答范围查询;Cormode等[2]提出应用离散小波变换将每个用户的真实数据转换为Haar小波系数向量后进行扰动,并对系数估计值进行逆变换以获得查询结果。对于高维(≥2维)数据场景,Yang等[3]提出结合一维、二维的频率估计结果,并利用加权更新方法来完成高维范围查询任务。
然而现有的方法存在以下问题。首先,大多数真实世界数据集的数据域中都存在稀疏区域。例如,50-60岁的人在一个足球俱乐部的成员中所占的比例很小。现有方法根据预定义的数据编码方式收集用户数据,不能利用用户上传数据的聚合结果动态调整数据编码方式,真实结果极有可能被注入的扰动噪声淹没。另外,文献[3]所提出针对高维(≥2维)数据场景的方法融合了一维频率估计结果,在估计过程中破坏了多维数据之间的相关性,在数据相关性强的高维数据中效果较差,不能满足数据精度需求。
[1]Wang T,Ding B,Zhou J,et al.Answering multi-dimensional analyticalqueries under local differential privacy[C]//Proceedings of the 2019International Conference on Management of Data.2019:159-176.
[2]Cormode G,Kulkarni T,Srivastava D.Answering range queries underlocal differential privacy[J].Proceedings of the VLDB Endowment,2019,12(10):1126-1138.
[3]Yang J,Wang T,Li N,et al.Answering multi-dimensional range queriesunder local differential privacy[J].Proceedings of the VLDB Endowment,2020,14(3):378-390.
发明内容
本发明的目的在于针对现有方法在用户侧扰动过程引入过量扰动噪声以及估计过程破坏高维数据相关性等缺陷,提供一种基于本地差分隐私技术的自适应数据域划分完成保隐私高维数据范围查询分析任务的方法。
本发明的目的是通过以下技术方案实现的:一种基于自适应数据域划分的保隐私高维数据范围查询方法,该方法包括以下步骤:
(1)数据收集者设置待收集用户属性集合、二维数据域、初始数据域划分方式、隐私预算,其中用户属性集合中包含至少两个用户属性,将属性两两组合计算属性组合总数,将二维数据域、初始数据域划分方式、隐私预算、属性组合总数发送给每个用户;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110994794.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种晶圆匀胶显影装置
- 下一篇:一种SHAP的优化方法、设备及介质
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置