[发明专利]面向差分隐私保护的随机森林算法在审
申请号: | 201811044646.4 | 申请日: | 2018-09-07 |
公开(公告)号: | CN109284626A | 公开(公告)日: | 2019-01-29 |
发明(设计)人: | 李远航;陈先来;安莹;刘莉 | 申请(专利权)人: | 中南大学 |
主分类号: | G06F21/62 | 分类号: | G06F21/62;G06K9/62 |
代理公司: | 长沙永星专利商标事务所(普通合伙) 43001 | 代理人: | 周咏;林毓俊 |
地址: | 410083 湖南省长沙市岳*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 随机森林 隐私保护 算法 信息增益 偏好 分类准确率 分类结果 机器学习 离散属性 连续属性 输出测试 隐私信息 测试集 分类树 决策树 分类 基尼 样本 分裂 | ||
本发明公开了一种面向差分隐私保护的随机森林算法,属于机器学习和隐私保护领域,包括:步骤一、建立提供ε‑差分隐私保护的随机森林;步骤二、利用提供ε‑差分隐私保护的随机森林对测试集进行分类,输出测试集中所有样本的分类结果。本发明提出了一种面向差分隐私保护的随机森林算法,通过在随机森林中加入差分隐私保护机制,可以在分类时保护数据的隐私信息,并且对分类准确率造成较小影响;通过使用基尼指数作为分裂准则、CART分类树作为随机森林中的单棵决策树,既能够处理离散属性,又能处理连续属性,并且消除了信息增益准则对可取值数目较多的特征有所偏好和信息增益率准则对可取值数目较少的特征有所偏好的影响。
技术领域
本发明属于机器学习和隐私保护领域,涉及一种面向差分隐私保护的随机森林算法。
背景技术
随着信息技术的迅猛发展以及大数据时代的到来,信息技术广泛应用于各行各业,医疗系统、社交网络、电子商务系统、位置服务和教育系统都收集了海量的用户数据。与此同时,数据的发布、共享与分析的需求日益增多,这些数据中包含的潜在的个人隐私信息会随着数据的共享和发布而被泄露出去。虽然删除数据的标识符属性(如ID号)或者隐藏数据集中的敏感属性(如姓名、住址)能够在一定程度上保护个人隐私,但一些攻击案例表明,保护个人隐私远远不止那么简单,还需要阻止敏感属性值与特定的实体或个人关联起来,以防止由非敏感属性信息推测出个人的真实身份。
针对隐私泄露问题,Dwork[1]等在2006年首先提出一种严格的、可证明的隐私保护模型——差分隐私保护技术。差分隐私作为一种新的隐私定义,与传统的隐私保护方法相比,有其独特的优势。第一,差分隐私保护模型假设攻击者拥有最大背景知识,在这一假设下,差分隐私保护能应对各种新型攻击,无需考虑攻击者所拥有的任何可能的背景知识;第二,它有着坚实的数学基础,对隐私保护有着严格的定义和可靠的量化评估方法,使得不同的参数处理下的隐私保护水平具有可比性;第三,差分隐私保护在大大降低隐私泄露风险的同时,极大地保证了数据的可用性;第四,差分隐私保护虽然基于数据失真技术,但所加入的噪声量与数据集大小无关,因此对于大型数据集,仅通过添加极少量的噪声就能达到高级别的隐私保护。
在数据挖掘中采用差分隐私保护技术的目的是在提取有价值信息的同时不泄露敏感隐私信息。周水庚[2]等将面向挖掘的隐私保护技术分为三类:关联规则挖掘、分类和聚类。分类作为一种重要的数据挖掘方法,可以用来建立重要的数据模型并预测数据趋势,在数据预测分析中起着至关重要的作用。决策树作为一种常见的分类模型,在决策树中应用差分隐私已经有了一些研究成果。
Blum[3]等提出了应用差分隐私保护的决策树构建算法SuLQ-based ID3,它的主要思想是在每次计算特征的信息增益时,加入Laplace机制的噪音计数值,生成决策树,但加入噪音后导致了预测结果准确率的大幅下降。Mcsher[4]等对SuLQ-based ID3做了改进,提出了PINQ-based ID3算法,该算法使用Partition算子将查询数据集分割成不相交的子集,利用其计算时并行组合性的特点,提高隐私保护预算的利用率。该算法直接利用噪声计数值评估信息增益标准,再使用ID3算法生成决策树。由于计算信息增益的计数值需要对每个特征进行,所以需要将整个隐私预算分配到每次查询中,导致每次查询的隐私预算较小,当数据集较大时会引入大量噪声。
为了解决噪声和隐私预算的问题,Friedman[5]等基于指数机制提出了DiffP-ID3,指数机制在一次查询同时评估所有特征,减少了噪声和隐私预算的浪费。但该算法是用来处理离散型数据的。为了处理连续型数据,Friedman和Schuster进一步提出了DiffP-C4.5,但是该算法在每一次迭代中必须先用指数机制对所有连续特征选择分裂点,然后将所得结果与全部离散特征一起再次通过指数机制选择最终的分裂方案,由于每次迭代需要调用两次指数机制,因此消耗了过多的隐私保护预算。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811044646.4/2.html,转载请声明来源钻瓜专利网。