[发明专利]基于差分隐私的集成学习分类方法有效
申请号: | 202010010391.0 | 申请日: | 2020-01-06 |
公开(公告)号: | CN111222570B | 公开(公告)日: | 2022-08-26 |
发明(设计)人: | 李先贤;刘静;刘松逢;王金艳 | 申请(专利权)人: | 广西师范大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N20/20 |
代理公司: | 桂林市持衡专利商标事务所有限公司 45107 | 代理人: | 陈跃琳 |
地址: | 541004 广西壮*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 隐私 集成 学习 分类 方法 | ||
1.基于差分隐私的集成学习分类方法,其特征是,包括步骤如下:
步骤1、将数据集的特征值归一化到[0,1],然后将数据集划分为原始训练数据集和验证数据集;同时,设定无放回采样数据集的个数T、有放回采样数据集的个数S和集成模型中基分类器的个数G;
步骤2、利用装袋自助采样法,先对原始训练数据集进行无放回采样得到T个无放回采样数据集Di,再分别对每个无放回采样数据集进行有放回采样得到S个有放回采样数据集
步骤3、对于每个无放回采样数据集Di,利用杰卡德相似系数计算其S个有放回采样数据集两两之间的相似度,并随机删除相似度大于阈值的其中一个有放回采样数据集,将剩下的si个有放回采样数据集作为基分类器训练数据集;
步骤4、利用步骤3得到的个基分类器训练数据集分别去训练个基分类器,在训练过程中对基分类器的类先验概率、均值向量和协方差矩阵加入拉普拉斯噪声,并对加噪后的协方差矩阵进行特征值分解使其满足半正定性,最后将得到的个满足差分隐私的基分类器即候选基分类器,并构成候选基分类器集合;其中,为每个基分类器训练数据集分配的隐私预算为其中ε为给定的总的隐私预算,si为第i个无放回采样数据集Di对应的基分类器训练数据集的个数;
步骤5、对步骤4所得到的候选基分类器进行增量选择,由此得到最终集成模型,即:
步骤5.1、从当前候选基分类器集合中选择精度最高的候选基分类器作为集成模型的第一个基分类器,以构建当前集成模型,并从当前候选基分类器集合中删除该候选基分类器;
步骤5.2、计算当前候选基分类器集合中所有候选基分类器的重要性,并按照重要性降序对这些候选基分类器进行排序;
步骤5.3、从重要性高的候选基分类器开始逐一选取,并判断当前选出的候选基分类器是否对当前集成模型的精度有贡献:
如果有贡献,则将当前选出的候选基分类器与当前集成模型中的基分类器组合,以更新当前集成模型,并将当前选出的候选基分类器从当前候选基分类器集合中删除,并转至步骤5.4;
否则,继续遍历当前候选基分类器集合中下一个重要性较低的候选基分类器,直到找出对当前集成模型的精度有贡献的候选基分类器;
步骤5.4、判断当前集成模型中的基分类器的个数是否为G个:
如果是,则将当前集成模型作为最终集成模型;
否则,进入下一轮选择,并返回步骤5.2;
步骤6、利用步骤5所得到的最终集成模型对待分类的数据进行分类;
其中i=1,2,……,T,j=1,2,……,S。
2.根据权利要求1所述的基于差分隐私的集成学习分类方法,其特征是,步骤5.2中,在第g轮中第r个基分类器的重要性为:
其中,r=1,2,…,R,R表示当前候选基分类器集合中候选基分类器的个数;g=1,2,…,G,G表示集成模型中基分类器的个数;xp表示验证数据集中的第p个数据样本,p=1,2,…,P,P表示验证数据集Dpr中数据样本个数,Dpr表示验证数据集;β∈{0,1},当第g轮中第r个基分类器对验证数据集Dpr中的数据样本xp的分类正确时,β=1,否则,β=0;α表示数据样本间隔的权值,α∈[0,1];yp表示验证数据集Dpr中的数据样本xp的真实类别标签索引;θm表示当前集成模型中第m个基分类器的权重,hm(xp)表示当前集成模型中第m个基分类器对验证数据集Dpr中的数据样本xp的预测类别标签索引,表示当前集成模型中对验证数据集Dpr中的数据样本xp分类正确的基分类器的个数,M表示当前集成模型中所有基分类器的个数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西师范大学,未经广西师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010010391.0/1.html,转载请声明来源钻瓜专利网。