[发明专利]基于数据分布特征的保序学习机在审
申请号: | 201810380560.2 | 申请日: | 2018-04-25 |
公开(公告)号: | CN108564177A | 公开(公告)日: | 2018-09-21 |
发明(设计)人: | 刘忠宝;张靖;周方晓;秦振涛;罗学刚 | 申请(专利权)人: | 攀枝花学院 |
主分类号: | G06N99/00 | 分类号: | G06N99/00 |
代理公司: | 成都虹桥专利事务所(普通合伙) 51124 | 代理人: | 陈立志 |
地址: | 617000 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据分布特征 学习机 样本 机器学习领域 线性判别分析 表征数据 分布特征 分类过程 模式分类 样本中心 优化问题 约束条件 离散度 分类 引入 | ||
本发明涉及机器学习领域,公开了一种基于数据分布特征的保序学习机,在分类时保持样本的相对顺序不变。本发明通过引入线性判别分析中的类内离散度用以表征数据的分布特征,通过在优化问题的约束条件中增加各类样本中心相对关系的限制,用以确保分类过程中将样本的相对关系考虑在内。本发明适用于模式分类。
技术领域
本发明涉及机器学习领域,特别涉及基于数据分布特征的保序学习机。
背景技术
模式分类是机器学习、模式识别、数据挖掘等领域的研究热点之一。常见的分类方法有:决策树、关联规则、朴素贝叶斯、支持向量机等。这些方法在实际应用中取得了良好的分类效果,但依然面临以下挑战:(1)分类过程并未考虑数据的分布特征,无法进一步提升分类性能;(2)分类结果忽视了各类样本的相对关系。
发明内容
本发明要解决的技术问题是:提供一种基于数据分布特征的保序学习机,在分类时保持样本的相对顺序不变。
为解决上述问题,本发明采用的技术方案是:基于数据分布特征的保序学习机(Rank Preservation Learning Machine based on Data Distribution Fusion,RPLM-DDF),通过引入线性判别分析(Linear Discriminant Analysis,LDA)中的类内离散度SW用以表征数据的分布特征,通过在优化问题的约束条件中增加各类样本中心相对关系的限制,以确保分类过程中将样本的相对关系考虑在内。
进一步的,具体的算法流程如下:
A.利用训练数据集建立基于类内离散度以及各类样本中心相对关系的限制的学习机模型,所述学习机模型的最优化问题为:
其约束条件为:s.t.WT(mi+1-mi)≥ρ,i=1,2,…,c-1
其中,W为分类超平面的法向量,β为平衡因子,v是通过网格搜索策略选择的常数,ρ为各类样本间距,是各类样本均值,c是类别数,SW是类内离散度,其定义为:其中Ci表示第i类样本集合,p(Ci)=Ni/N;
B.利用Lagrangian乘子法将所述学习机模型的最优化问题转化为QP对偶形式,求得分类超平面的法向量;
C.根据求得的法向量定义判别函数。
进一步的,步骤B中,利用Lagrangian乘子法将所述学习机模型的最优化问题转化为对偶形式的步骤包括:
B1.将所述学习机模型的最优化问题表示为以下Lagrangian函数式:
其中,Lagrangian乘子α≥0;
B2.L(W,ρ,α)分别对ρ,α求偏导并令偏导为0,得到:
B3.将步骤B2得到的等式代入步骤B1中的Lagrangian函数式得到最优化问题的以下对偶形式:
其约束条件为:
进一步的,所述判别函数为:
其中,bk=WT(mi+1+mi)/2。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于攀枝花学院,未经攀枝花学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810380560.2/2.html,转载请声明来源钻瓜专利网。