[发明专利]一种基于差分隐私保护的电力交易大数据发布方法有效
申请号: | 201811247679.9 | 申请日: | 2018-10-25 |
公开(公告)号: | CN109376549B | 公开(公告)日: | 2021-09-10 |
发明(设计)人: | 杜龙 | 申请(专利权)人: | 广州电力交易中心有限责任公司;北京中科锐链科技有限公司 |
主分类号: | G06F21/62 | 分类号: | G06F21/62;G06F16/9032 |
代理公司: | 北京捷诚信通专利事务所(普通合伙) 11221 | 代理人: | 王卫东 |
地址: | 510663 广东省广州市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 隐私 保护 电力 交易 数据 发布 方法 | ||
1.一种基于差分隐私保护的电力交易大数据发布方法,其特征在于,包括步骤如下:
步骤S10、利用最大信息系数的特征选择方法MICFS对电力交易的原始数据集中数据记录之间的相关性进行特征选择,统计数据集的相关性,并从原始大数据集中选取相关性低的数据记录生成待定数据集B;
步骤S20、利用聚类算法对待定数据集B进行K-区块划分,得到具有相互独立属性的k个子数据块;计算每个子数据块Di(i=1,2,...,k)中删除某一条记录j后,查询函数f询问原始数据集D的敏感度GSD以及询问待定数据集B的敏感度GSB;
步骤S30、根据差分隐私并行组合性质,利用查询函数f询问待定数据集B的敏感度,进行Laplace噪声的添加,获得满足差分隐私的训练样本查询集ε为总的隐私预算;
步骤S40、将满足GSB≤GSD的待定数据集B的查询集f(B)与待定数据集B满足差分隐私的训练样本查询集作为机器学习的训练样本集T=<f(B),并利用训练样本集T训练Lasso回归算法模型,生成预测模型M;
步骤S50、将原始数据集输入到预测模型M中,输出满足差分隐私原始数据集D的查询集对该查询集进行最终数据发布。
2.如权利要求1所述的方法,其特征在于,步骤S10具体包括以下步骤:
步骤S11、初始化包含所有变量n的原始数据集D及待定数据集B,待定数据集B初始状态为空集;
步骤S12、从原始数据集D中选取候选变量fi,计算fi与因变量C之间的最大信息系数MIC(fi,C);
步骤S13、对计算出的最大信息系数排序,并选择最大的最大信息系数值作为初始变量,则D=D-{fi},B=B+{fi};
步骤S14、使用贪婪算法进行特征选择,直到选定变量的数目达到预设数量ρ;
步骤S15、输出包含所有选定变量的待定数据集B。
3.如权利要求1所述的方法,其特征在于,计算查询函数f询问数据的敏感度GS的方法为:
B={D1,D2,...,Dk}为k-区块划分数据集,其中,是数据集Di与删除数据集Di的第j条数据后产生的数据集之间的不同数据记录;则查询函数f的敏感度计算公式为:
其中,
v(xj)表示数据记录xj的值,g(·)表示数据xj与它的相关记录之间的依赖关系;
定义差分隐私为其中,为隐私机制,ε为隐私预算。
4.如权利要求2所述的方法,其特征在于,最大信息系数MIC(fi,C)计算公式为:
互信息P(fi,C)为两个变量的联合概率分布,B(n)=n0.6。
5.如权利要求2所述的方法,其特征在于,步骤S14具体为:
计算选择变量fB与候选变量fi之间的最大信息系数MIC(fB,fi);
选择最大值以下的评估函数的变量作为下一个变量,则
循环以上两个步骤直到选定变量的数目达到预设数目ρ。
6.如权利要求1所述的方法,其特征在于,利用训练样本机器训练Lasso回归算法模型,生成预测模型M的方法为:
应用Lasso回归模型,通过输入变量的固定非线性函数的线性组合获得预测模型M;
其中μ是的均值,u是预先定义参数用来控制基函数的可伸缩性;
当生成模型M时,新查询答案由M生成且不消耗任何隐私预算。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州电力交易中心有限责任公司;北京中科锐链科技有限公司,未经广州电力交易中心有限责任公司;北京中科锐链科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811247679.9/1.html,转载请声明来源钻瓜专利网。