[发明专利]基于信息浓缩的隐私保护SVM分类方法在审
申请号: | 201610040350.X | 申请日: | 2016-01-20 |
公开(公告)号: | CN105718948A | 公开(公告)日: | 2016-06-29 |
发明(设计)人: | 狄岚;于晓瞳 | 申请(专利权)人: | 江南大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 214122 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 信息 浓缩 隐私 保护 svm 分类 方法 | ||
【技术领域】
本发明涉及数据挖掘与模式识别技术领域,涉及数据集和人脸的分类分析。
【背景技术】
分类是数据挖掘领域中一个重要研究内容,被广泛的应用于对数据信息的分析以及预测,这极大地促进了人们对海量数据的利用,同时也引起了大量数据信息的泄露。然而,大多数的分类算法依赖于对原始训练样本的学习,容易暴漏训练数据的信息,易导致隐私信息的泄露,这在一些领域是不允许的,如患者的疾病信息、医疗数据处理以及弹药的成分等。因此,如何对训练数据信息进行保护,同时不影响分类的性能成为了分类算法中的一个重要的研究问题。支持向量机(SupportVectorMachine,SVM)由于它在处理非线性和高维的数据表现出独有的优势,因此被广发应用于研究以及现实生活中,然而它也依赖于对训练样本的学习,因此不可避免会导致隐私信息的泄露。目前已经有很多针对SVM改进的隐私保护方法,但是却依赖于对原始数据的学习,因此不可避免地会造成原始数据隐私信息的泄漏。
【发明内容】
本发明的目的是为了是SVM在保证分类准确率的基础上,具有保护数据隐私的功能。
为了达到本发明的目的,本发明充分考虑了数据信息泄露的本质原因,即支持向量的生成过程以及支持向量的所包含的本质信息,针对支持向量的生成,采用FCM对训练样本进行信息浓缩,将样本的本质信息进行隐匿,从而达到保护数据信息的目的。
给定训练样本S={(x1,y1),(x2,y2),...,(xl,yl)},其中xi∈Rn,yi∈{+1,-1},i=1,2,...,l。设wT·x+b=0为最优超平面,其中w∈Rn且b∈R。标准支持向量机(即软间隔支持向量机算法,C-SVC),所对应的优化问题如下:
其中,C>0为惩罚参数,用来控制对错分样本的惩罚程度;ξi≥0为松弛变量,用于解决数据中存在的噪声或野值。引入拉格朗日乘子αi≥0后对应的对偶问题为:
通过求解对偶问题,得最优解α*=(α1*,α2*,...,αN*)T,进而得到原始问题的最优解为:
其中αi*∈(0,C),从而得到最优决策超平面为:
对于非线性问题,SVM引入核函数,相对应的对偶问题和最优决策超平面变为:
SVM在分类的过程中的决策函数是由支持向量扩展生成的,而支持向量的生成依赖于对原始数据的学习过程。根据SVM的分类准则可知,学习过程是完全可见的,因此支持向量以及部分数据的信息被暴漏了出来。而支持向量区别于其他的数据,它包含了此类样本的重要信息,因此易导致重要信息的泄露。当SVM训练样本结束后,可通过支持向量求得到的最优决策超平面。
针对上述存在的问题,这里采用了模糊C均值聚类算法对训练样本进行信息浓缩,通过使用浓缩后得到的新样本来进行训练学习,从而达到保护数据的隐私。设表示给定的样本集合,s是样本空间的维数,n表示样本的个数。FCM算法可以描述为如下的一个优化问题:
通过拉格朗日求极值法,求的隶属度矩阵U以及聚类中心V的循环迭代公式如下:
在分类过程中,只需要用浓缩点组成的新样本来进行训练,即可避免在训练过程和决策过程因支持向量的暴露而导致隐私信息的泄密。关于浓缩点标签的设置,这里给出了相关的准则。设Li表示第i个信息浓缩点的标签,idxj表示原始第j个样本的标签,令:
其中m表示隶属于第i类样本的个数。Li的取值策略如下:
通过上述信息浓缩以及标签取值策略的处理,得到新的训练样本集合可表示为X′=[V,L],其中V=[v1,v2,..,vc],L∈{+1,-1}。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江南大学,未经江南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610040350.X/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置