[发明专利]一种代价敏感模糊多核分类器在审
申请号: | 201810536904.4 | 申请日: | 2018-05-30 |
公开(公告)号: | CN108846424A | 公开(公告)日: | 2018-11-20 |
发明(设计)人: | 李冬冬;王喆;程阳;张静;杜文莉 | 申请(专利权)人: | 华东理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 200237 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模糊隶属度 分类器 多核 敏感 样本 核算 分类器模型 模糊 分类过程 分类性能 训练样本 正类样本 数据集 信息熵 算法 引入 | ||
1.一种代价敏感模糊多核分类器,其特征在于,该分类器的训练方法包括以下骤:
1)将原始样本数据划分为训练集和测试集两部分;
2)根据新的模糊隶属度生成方法,在原始的训练数据上计算每个样本的模糊隶属度;
3)本方法基于多核学习方法,将训练样本通过多个核映射到不同的特征空间,每组映射后的数据由基分类器处理;
4)将模糊隶属度引入多核框架中,然后得出训练样本的训练结果;
5)测试步骤中,将经过映射的测试样本代入到该模型对应的判别函数中进行识别。
2.根据权利要求1所述的代价敏感模糊多核分类器,其特征在于:步骤2)的模糊隶属度生成方法,同时基于信息熵和代价敏感,样本xi的信息熵计算公式为:
c是训练样本的类别数,Pj(xi)是根据近邻规则计算的样本xi属于某一类的概率;对每个样本xi,根据近邻方法计算其概率:
numj是xcandi中属于第j类的样本个数,numcandi是xi的近邻样本xcandi的总个数;
接下来,将所有训练样本按照其熵的值分为m组,每一组中的样本都对应一个隶属度;然后,为每个组设定一个模糊隶属值,对于第j组,其模糊隶属值为:
Fj=1-α(j-1),j=1,2,...,m
参数α用来保持Fj的值在(0,1]的范围之内;参数α要保持Fj的值在(0,1]的范围之内,故α的范围应该在在得到所有样本的熵之后,需要计算每个样本的模糊隶属度;在计算模糊隶属度时,使用代价敏感来控制类间的模糊隶属度大小;对于两类问题来说,假设正类和负类的错分代价分别为C+和C-;那么对于样本xi,其最终的模糊隶属度为:
Fi为公式(5)样本xi的隶属值。
3.根据权利要求2所述的模糊隶属度生成方法,样本的信息熵的计算是基于近邻方法,此处采用的是没有任何参数的固定半径近邻方法;计算熵需要利用样本的概率Pj(xi);步骤2中计算Pj(xi)的具体流程如下:
首先,使用固定半径近邻方法在所有样本上计算出半径R;R的计算流程如下:
利用以下公式计算所有样本两两间的欧氏距离:
是样本xi和xj的距离,d表示样本维度;
根据上一步计算的距离,按照以下公式计算半径:
接着,根据上面计算的半径R,利用固定半径最近邻方法,计算Pj(xi);其中定半径最近邻方法的表示如以下公式:
xall是全部训练样本,xcandi是样本xi对应的近邻样本;
最后,对每个样本xi,计算其概率:
numj是xcandi中属于第j类的样本个数,numcandi是xcandi的总个数。
4.根据权利要求2所述的模糊隶属度生成方法,其特征在于,正负类的代价分别设置为C+=1,其中IR称为不平衡率,它用来衡量数据集的不平衡程度,且其定义如下:
N-和N+分别是负类样本和正类样本的数量。
5.权利要求1所述的代价敏感模糊多核分类器,其特征在于,训练步骤中建立目标函数时采用多核算法MultiV-KMHKS,结合模糊隶属度,此分类器的目标函数主要包含两个部分,可以表示为:
第一部分包含两个项,是经验风险项,是结构风险项;这两项可以看成是每个基分类器,它保证分类器的分类正确率;第二项Rv(D)使每个核的输出都尽量接近所有核的平均输出;正则化参数cp和γ均大于或等于零;其中和Rv(D)的D是包含模糊隶属度的矩阵;它们的具体形式如下:
定义向量p指的是第p个核映射;定义偏移量
核矩阵目标函数为:
1指代的是N×1的向量,并且误差向量bp∈RN×1≥0;此处,D∈RN×N是由模糊隶属度组成的对角矩阵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东理工大学,未经华东理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810536904.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:水质预测方法和系统
- 下一篇:基于卷积神经网络的慕课论坛主题分类方法