[发明专利]基于多目标优化的高维数据半监督集成分类方法有效
申请号: | 201611064898.4 | 申请日: | 2016-11-28 |
公开(公告)号: | CN106778832B | 公开(公告)日: | 2019-10-18 |
发明(设计)人: | 余志文;张乙东;陈洁彦 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 罗观祥 |
地址: | 511458 广东省广州市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于多目标优化的高维数据半监督集成分类方法,涉及人工智能集成学习领域,主要解决现有技术中对子空间优化和选择以及半监督信息利用的问题。该高维数据半监督集成分类方法包括下列步骤:S1、输入训练数据集;S2、对输入的上述训练数据集进行数据归一化;S3、产生随机子空间集合;S4、多目标优化选取子空间集合;S5、寻找特征子空间中最优半监督分类器;S6、对测试样本进行分类;S7、计算分类准确率。本发明利用随机子空间解决了高维数据难处理的问题;利用多目标优化的解决方法,充分优化子空间的选择来提高子空间的鲁棒性;并充分利用无标签和有标签的信息来优化子空间的分类器,提高分类器的泛化能力。 | ||
搜索关键词: | 基于 多目标 优化 数据 监督 集成 分类 方法 | ||
【主权项】:
1.一种基于多目标优化的高维数据半监督集成分类方法,其特征在于,所述方法包括下列步骤:S1、输入训练数据集,将一个待分类处理的高维数据集X,行向量对应样本维,列向量对应属性维,然后利用训练数据的类标签来将数据划分为无标签数据和有标签数据;S2、对输入的上述训练数据集进行数据归一化,获取第d列数据相对应的最大值W(d)max和最小值W(d)min,将第d列数据根据如下的公式进行转换:
其中,
为第d列第i个数据,
为更新之后的数据,n为数据集中样本总的数量,D为数据集对应的维度数,i∈{1,2,.....,n},d∈{1,2,.....,D};S3、产生随机子空间集合;S31、获取高维数据集的属性维度数,产生子空间的属性维度数;S32、对原始数据集包括无标签和有标签数据重复随机采取属性列;S33、重复步骤S31和步骤S32,直到产生S个随机子空间;S4、多目标优化选取子空间集合;S41、将每个子空间的数据进行三个目标函数的计算,得到相对应目标函数的值;S42、根据每个子空间的多目标优化函数的值确定其初始的优先排序rank,找出非支配子空间集合P,即目标函数都优于其他子空间;S43、将非支配子空间集合P根据standard DE计算方式再初始化含有P/2个子空间的子空间集合Q;S44、通过基于Jaccard系数的近邻函数来求解P中分别与Q在特征上的相似性和差异性;S45、将步骤S44得到函数用于模糊成员函数中来得到P中各自子空间的在Q中各自k个近邻子空间;S46、将步骤S45得到的相邻子空间通过聚集成员函数来随机得到P中各自子空间的最近邻的子空间;S47、将P中各自子空间与相对应的最近邻子空间通过线性聚合函数得到一个新对应集合W;S48、通过快速非支配算法计算步骤S47中P与Q以及W中相对应的子空间,得到最优的子空间,更新P中的子空间;S49、通过特征间交叉变换操作和变异变换操作产生新的子空间集合Pt,得到新的子空间集合P=P∪Pt;S410、对特征集合P进行非支配排序算法操作,通过排挤和精英保留策略选出S个子空间,组成新的特征集合P;S411、对步骤S41到步骤S410进行t次循环迭代;S5、寻找特征子空间中最优半监督分类器;S51、对步骤S4得到的子空间集合进行属性采样处理;S52、输入样本采样操作的次数n;S53、对步骤S51得到的属性维采样后的数据集根据样本是否有标签分别进行采样操作,设置采样率,其中有标签样本中没有被采集到的样本作为测试样本X_test,被选择到的有标签样本和无标签样本为训练样本X_train;S54、用X_train对LapRLS分类器进行训练并对X_test进行测试,得到准确率;S55、返回步骤S53,直到采样的次数达到n;S56、对n个在属性和样本采样下训练好的LapRLS分类器根据其分类准确率进行排序,选择准确率最高的作为该子空间的最优分类器;S57、对每个子空间分别执行步骤S51到步骤56,直到结束;S6、对测试样本进行分类;S61、输入测试样本集T;S62、取出一个测试样本T进行分类;S63、将测试样本T按各自子空间的属性采样维进行采样得到各个子空间适配的样本;S64、使用每个子空间的最优分类器对相对应的样本进行分类,每个子空间得到相对应的结果;S65、综合每个子空间得到的分类结果,将被预测最多的分类结果作为最终分类结果;S66、循环步骤S62到步骤S65,将测试样本集T中的样本都进行分类预测结果集Lt;S7、计算分类准确率;S71、输入测试样本集的标签集L;S72、对比L与Lt,计算得到分类准确率。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201611064898.4/,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置