[发明专利]一种适用于支持向量机训练的冗余数据约减方法无效

专利信息
申请号: 201210136985.1 申请日: 2012-05-07
公开(公告)号: CN102831432A 公开(公告)日: 2012-12-19
发明(设计)人: 沈项军;吴昊翔;蒋中秋;林琳;詹永照;杨鹤标 申请(专利权)人: 江苏大学
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 南京经纬专利商标代理有限公司 32200 代理人: 楼高潮
地址: 212013 江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开一种适用于支持向量机训练的冗余数据约减方法,通过类最大最小距离方法对纯子类集合筛选,找到离支持向量机的分类面较远的纯子类并予以删除,得到集合上约减纯类集合后的纯子类子集合,对保留下来的可能存在支持向量的多个聚类,按照费歇尔判别率准则进一步将同一聚类的数据分成内层冗余数据和外层边界数据,只保留外层边界数据进行支持向量机的训练,从而有效消除同一类数据上的内部冗余数据,能在保持支持向量机分类精度的同时,大大减少海量数据上支持向量机训练所需时间,显著提升支持向量机训练的时间和空间效率,使之能够应对海量数据的分类训练问题。
搜索关键词: 一种 适用于 支持 向量 训练 冗余 数据 方法
【主权项】:
1.一种适用于支持向量机训练的冗余数据约减方法,其特征是采用如下步骤:A、先将训练数据集合定义为是n维实向量空间上的数据对象,是数据对象的实际类别标签,共有N个数据对象,数据对象分别属于M个实际类别;然后利用K均值聚类方法将训练数据聚类成K个子类,将K个子类分为所包含的数据对象为单一类别的纯子类集合和子类所含数据对象为两个以上多个类别的混合子类;最后将混合子类MC中每一个混合子类中的数据对象按照其所属实际类别再次划分为多个纯子类,最终分成L个纯子类,得到R+L个纯子类集合;B、通过类最大最小距离方法对纯子类集合UC筛选,找到离支持向量机的分类面较远的纯子类并予以删除,得到集合S上约减纯类集合后的纯子类子集合RS1,具体按以下步骤实现:1)计算集合S上每一个纯子类的聚类中心,对R+L个聚类中心及其对应的实际类别标签组成的集合使用支持向量机分类,得到M-1个近似分类面;2)从实际类别标签=1开始,选择纯子类UMC中属于同一实际类别标签的若干子集合,计算子集合的某一子集的每一个数据对象到M-1个近似分类面的最近距离,以中所有子集合的距离的极大值作为该实际类别标签LY的类最大距离;3)选取集合UC上所有实际类别标签均是LY的子集合,Hcj是纯子类个数;4)从cj=1开始,选取集合中的一个纯子类,计算中每一个数据对象到M-1个近似分类面的最近距离作为该数据对象到M-1个近似分类面的距离,选取所有数据对象到近似分类面的极小值作为纯子类到近似分类面的距离;5)将cj递增1,并重复步骤4)直到cj=+1;6)将LY递增1,选择下一个实际类别标签,转到步骤2)继续执行,直到LY=M+1; 7)返回剩余子类及其所含数据集合,集合UC上最终保留H个纯子类,剩余子类共有H+L个纯子类; C、使用费歇尔判别法对纯子类集合RS1去除子类内层冗余数据,得到最终数据集合RS2,具体按以下步骤实现:1)从di=1子类开始,选取集合RS1中的一个子类为,计算中每一个数据对象到该类的聚类中心Gdi的距离并排序得到对应的数据对象集合为;2)统计小于该数据对象到聚类中心距离内的数据对象个数,得到该数据对象到聚类中心距离上的数据密度集合为;3)设置参数d=1,LD=Im,Bmin=1,Bmax=mdi,Im=m+1; 4)若d<LD,执行下一步骤5);否则跳转到步骤9);5)计算当前步长;6)在以距离范围内的数据密度子集中,以SL为步长计算对应距离上的数据密度集合Den的费歇尔判别率值;在第k个步长上,将数据密度集合Den在距离上分成两个子集;得到第gk个步长上,将数据密度集合Den分成V和T两个子集后得费歇尔判别率的值是子集合V上数据密度的均值,是子集合V上数据密度的均方差;是集合T上数据密度的均值,是集合T上数据密度的均方差;7) 选取值F上最大的两个费歇尔判别率值,得到其所对应的排序距离,将这两个排序距离的位置分别赋给Bmin和Bmax;8)将d递增1,并跳转到步骤4);9)以当前排序距离为阈值,删除数据对象中所有到该类聚类中心距离小于的数据对象;10)将di递增1,并跳转到步骤1),处理集合RS1中的下一个子类,直到di=H+L+1;11)将剩余的数据组成集合
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏大学,未经江苏大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201210136985.1/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top