[发明专利]时间-空间型的轨迹大数据差分隐私保护方法在审
申请号: | 201810053113.6 | 申请日: | 2018-01-19 |
公开(公告)号: | CN108763947A | 公开(公告)日: | 2018-11-06 |
发明(设计)人: | 郭宇春;刘翔;陈一帅 | 申请(专利权)人: | 北京交通大学 |
主分类号: | G06F21/62 | 分类号: | G06F21/62;G06F17/30 |
代理公司: | 北京市商泰律师事务所 11255 | 代理人: | 黄晓军 |
地址: | 100044 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 大数据 均方误差 近似度 前一时刻 隐私保护 子区域 发布 个人隐私数据 数据预处理 发布数据 轨迹数据 记录信息 数据发布 用户轨迹 用户历史 预算分配 可用性 输出 可用 噪声 泄露 预算 | ||
1.一种时间-空间型的轨迹大数据差分隐私保护方法,其特征在于,该方法包括:
通过数据预处理,得到用户轨迹大数据集;包括:
对全局进行区域划分,将全局均匀划分为N×N个子区域,并按照固定的时间间隔收集用户所处位置,将数据汇总得到用户轨迹大数据集;
对所述用户轨迹大数据集中的每个子区域进行预算分配,计算每个子区域在近似度计算阶段和数据发布阶段的可用预算;包括:
假设有随机算法M,Pm为M的所有可能输出,对任意两个只相差一条记录的数据集D和D′以及任何Pm的子集Sm,若M满足式(1):
Pr[M(D)∈Sm]≤exp(ε)*Pr[M(D')∈Sm] (1)
则算法M满足ε-差分隐私保护,所述ε称为隐私预算;
所述预算分配的目标为:在整体全局区域中任意一个连续的n×n局部区域,在连续ω时间内的总发布预算不超过ε;
设n=2,则每一时刻,每一子区域进行近似度计算部分的可用预算为:记为ε1;
计算包含子区域ij的所有n×n(1<n≤N)局部区域在过去ω-1时刻消耗的发布预算之和的最大值,记为maxbudget;
性质1——隐私预算的序列组合性:对同一数据集,连续使用m个保护力度为εm的差分隐私保护算法,则组合算法满足差分隐私保护;
在整体区域内有4个2×2的局部区域包含所述子区域ij,包括:左上角2×2局部区域、左下角2×2局部区域、右上角2×2局部区域和右下角2×2局部区域;
根据性质1可知,左上角2×2局部区域在t时刻的发布预算为:max(εt,i-1.j,εt,i-1.j+1,εt,i.j,εt,i.j+1),记为bt,sub1,过去ω-1时刻消耗的总预算为:记为sbt,sub1,则过去ω-1时刻所有包含子区域ij的局部区域使用的最大预算为:
maxbudget=maxsubsbt,sub; (2)
性质2——隐私预算的并行组合性:对不相交的数据集D1,D2,…,Dm使用m个保护力度为εm的差分隐私保护算法,则组合算法满足差分隐私保护;
根据性质2可知,为保证任意ω时刻内隐私预算不大于ε,每次分配剩余隐私预算的一半给当前时刻,记为ε2,则:
对所述用户轨迹大数据集进行近似度计算,计算当前时刻的数据与前一时刻的数据之间的均方误差;
根据近似度计算结果进行判断决定是否发布数据,若所述均方误差大于当前时刻的数据的发布误差,则将当前时刻的数据进行发布,在发布数据时将待发布数据加入Laplace噪声后输出,若所述均方误差不大于当前时刻的数据的发布误差,则不输出,并将前一时刻的数据作为当前时刻的数据。
2.根据权利要求1所述的时间-空间型的轨迹大数据差分隐私保护方法,其特征在于,所述的对用户轨迹大数据集进行近似度计算,计算当前时刻的数据与前一时刻的数据之间的均方误差,包括:
所述近似度计算,用于判断局部子区域在当前时刻与前一时刻数据的均方误差;
将划分为N×N子区域的全局区域划分为个互不相邻的n×n局部子区域,计算出每个所述局部子区域前一时刻的数据与当前时刻的数据的均方误差,作为每个所述局部子区域的近似度,记为MAEk;
在计算所述局部子区域的近似度MAEk的过程中,所采用的数据使用了当前时刻的真实值,基于差分隐私保护的要求,加入方差为ε1的Laplace噪声对局部子区域的近似度MAEk进行干扰。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京交通大学,未经北京交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810053113.6/1.html,转载请声明来源钻瓜专利网。