[发明专利]基于点到局部特征空间距离的分类器模型建立方法在审
申请号: | 201410699884.4 | 申请日: | 2014-11-26 |
公开(公告)号: | CN104408129A | 公开(公告)日: | 2015-03-11 |
发明(设计)人: | 李波;王运庆;张晓龙 | 申请(专利权)人: | 武汉科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 张火春 |
地址: | 430081 *** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 局部 特征 空间 距离 分类 模型 建立 方法 | ||
所属领域
本发明属于分类器技术领域。具体涉及一种基于点到局部特征空间距离的分类器模型建立方法。
背景技术
数据挖掘的主要任务有分类分析、聚类分析、关联规则分析、序列模式分析等,其中分类分析由于其特殊地位,一直是数据挖掘研究的热点。对于数据分类问题,通常采取的流程是首先对数据进行预处理,然后采用线性或者非线性特征提取方法,从预处理的数据中提取最有利于分类的特征,最后建立分类器模型,对所提取的特征进行类别预测。在整个数据分类过程中,如何建立数据分类模型是关系到数据分类效果好坏的关键之一。分类器模型的任务就是训练一个分类器,分析输入的样本集合,通过在训练集中的数据表现出来的特性,为每一个类寻找一种准确的描述。由所生成的类描述对未来的测试数据进行分类,尽管这些未来的测试数据的类别标签是未知的,但仍可以由此预测这些新数据所属的类别。
目前有许多方法和技术可以用于构造分类器模型,例如决策树、决策表、神经网络、K近邻方法、遗传算法、贝叶斯方法以及支持向量机等。然而,这些单一的分类技术在应用中常常会受到一定条件的限制。对于一些非线性分类方法,如神经网络和支持向量机,由于算法复杂,造成计算代价很高。另外决策树、决策表,遗传算法和贝叶斯方法也因为计算复杂,运算量大,给大数据分类带来很大的困扰。作为一种计算简单的数据分类方法,K近邻采用一种以点到点的欧氏距离作为近邻点选择的度量,在K设置为1的情况下,K近邻方法转化为最近邻方法,未知类别数据样本点的类别就可以预测为距离其最近的样本点的类别,因此计算成本相对较低。但是K近邻方法的鲁棒性能比较差,在数据中如果包含有噪声或者奇异点的时候,特别是当噪声或者奇异点距离预测样本点比较近的时候,很容易影响未知类别样本点的预测效果,对数据的分类结果造成很大的影响。
发明内容
本发明目的在于提出一种基于点到局部特征空间距离的分类器模型建立方法,所建立的分类器模型能有效地抑制噪声或奇异点对数据类别预测的干扰,能增强分类器模型的鲁棒性能,能提高未知类别的样本点的类别预测效果。
为实现上述目的,本发明采用的技术方案是,所述分类器模型建立方法的具体步骤是:
步骤一、计算任一未知类别的样本点Xi与类别为cs的所有样本点之间的欧式距离,取所述欧式距离由小到大排列的前k个类别为cs的样本点将所述前k个类别为cs的样本点作为任一未知类别样本点Xi的类别为cs的局部近邻点,构建类别为cs的局部特征空间i表示自然数,s∈{1,2,...,L},L表示所有样本点的类别总数。
步骤二、重复步骤一,分别从类别为ct(t=1,2,...,L-1)的所有样本点中,选取k个类别为ct(t=1,2,...,L-1)的局部近邻点构建相应的类别为ct(t=1,2,...,L-1)的局部特征空间L表示所有样本点的类别总数,所述的K为大于3的自然数。
步骤三、分别计算任一未知类别的样本点Xi到类别为cj的局部特征空间的欧氏距离
式(1)中:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉科技大学,未经武汉科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410699884.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于保险柜的三维人脸识别方法
- 下一篇:一种LED灯热阻测量方法