[发明专利]面向K近邻算法用于不平衡分布数据的特征权重确定方法在审
申请号: | 201610578874.4 | 申请日: | 2016-07-21 |
公开(公告)号: | CN106203530A | 公开(公告)日: | 2016-12-07 |
发明(设计)人: | 李良敏;张俊红;聂亚军;胡骁;孙建国 | 申请(专利权)人: | 长安大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 刘强 |
地址: | 710064 陕西*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种面向K近邻算法用于不平衡分布数据的特征权重确定方法,其具体过程是:(1)调入训练样本,若样本描述特征中存在标称属性、二元属性或序数属性特征时,将其转化为数值型特征;(2)对训练样本的各个特征值进行归一化处理;(3)根据数据分布的不平衡程度确定各训练样本的权重系数;(4)计算样本各个特征的综合性能衡量指标;(5)根据各个特征的综合性能衡量指标确定其特征权重。与现有技术相比,本发明可以以更高的计算效率获得更为合理的特征权重,显著提高了K近邻算法对不平衡分布数据的处理能力,对作为关注重点的少数样本表现出良好的识别能力。 | ||
搜索关键词: | 面向 近邻 算法 用于 不平衡 分布 数据 特征 权重 确定 方法 | ||
【主权项】:
一种面向K近邻算法用于不平衡分布数据的特征权重确定方法,其特征在于,包括以下步骤:步骤1,调入训练样本集合X={X1,X2,...,XN},各个训练样本Xk,k=1,2,...,N均用m个特征属性和1个类别属性进行描述,即Xk=(xk1,xk2,...,xkm,xkc),k=1,2,...,N,其中xki,i=1,...,m为样本Xk的特征属性;xkc为样本Xk的类别属性,该属性定义了样本Xk的归属类别,共n类,若样本的描述特征中包含标称型、二元型或序数型特征时,需将其转化为数值型特征;步骤2,对训练样本Xk,k=1,2,...,N的各个特征属性值进行归一化处理,得到归一化后的特征值
归一化公式为:
其中
为归一化后的特征值,xki为原始特征值,ximax,ximin分别表示归一化前所有训练样本的第i个特征的最大值与最小值,即ximax=max{xki,k=1,2,...,N},ximin=min{xki,k=1,2,...,N};经过归一化处理后训练样本Xk表示为
步骤3,对于经步骤2归一化处理后的训练样本
根据公式
确定样本的权重系数ck,k=1,2,...,N,其中Nkc为训练样本Xk所属类别的样本容量;步骤4,计算经步骤2归一化处理后的特征属性
与类别属性xc=[x1c,x2c,...,xNc]'之间的相关性衡量指标REi,i=1,2,...,m以及与其他特征属性
之间的相关性衡量指标RIi,i=1,2,...,m,并根据REi,i=1,2,...,m与RIi,i=1,2,...,m计算各特征的综合性能衡量指标Ri,i=1,2,...,m;步骤5,根据步骤4中得到的各特征的综合性能衡量指标Ri,i=1,2,...,m确定特征权重ωi,i=1,2,...,m,使用的公式为![]()
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于长安大学,未经长安大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610578874.4/,转载请声明来源钻瓜专利网。