[发明专利]基于局部表示系数的最近邻分类方法、存储介质和终端在审
申请号: | 201910530008.1 | 申请日: | 2019-06-19 |
公开(公告)号: | CN110288012A | 公开(公告)日: | 2019-09-27 |
发明(设计)人: | 王晓军;杨嘉晨 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 南京苏科专利代理有限责任公司 32102 | 代理人: | 姚姣阳 |
地址: | 210003 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 样本 查询 样本池 最近邻分类 存储介质 局部表示 分类 终端 邻居 空间分布 样本特征 | ||
一种基于局部表示系数的最近邻分类方法、存储介质和终端,所述方法包括:获取包括查询样本在内的样本池;基于所述样本池中的样本特征的空间分布,从所述样本池中选取所述查询样本的相似样本构成所述查询样本的邻居域;基于所述查询样本的邻居域对所述查询样本进行分类。上述的方案,可以对查询样本进行分类时,提高分类的准确性和效率。
技术领域
本发明属于分类技术领域,特别是涉及一种基于局部表示系数的最近邻分类方法、存储介质和终端。
背景技术
K近邻算法是数据挖掘的十大算法之一。由于该算法具有简单高效的优点,自提出以来,它在模式识别中得到了广泛的应用。但它仍然存在两个关键问题,即对邻居域大小的敏感性和在邻居域中简单多数投票对分类决策的敏感性。
一般情况下,对邻居域大小的敏感性是由不同的邻居域选择准则和离群点产生的,这种敏感性在小样本的情况下更为明显。通常的邻居域选择只考虑样本间的相似性,往往容易忽视所有样本特征的空间分布。此外,在存在噪声和不平衡数据的小样本情况下,基于K近邻的非参数分类器的性能更是严重下降,对邻居域大小的敏感性也更加明显。K近邻算法的分类决策通常由近邻简单多数投票决定,若存在离群值,其性能很容易退化,因为对于简单多数投票,k个邻居在分类决策中得到的权重是均等的。而理论上,更近的近邻在决策时,应该被给予更大的权重。
为了改进简单多数投票,目前存在一些基于稀疏表示的最近邻分类方法,但存在着准确性和效率低下。
发明内容
本发明解决的技术问题是如何对查询样本进行分类时,提高分类的准确性和效率。
为了达到上述目的,本发明提供一种基于局部表示系数的最近邻分类方法,所述方法包括:
获取包括查询样本在内的样本池;
基于所述样本池中的样本特征的空间分布,从所述样本池中选取所述查询样本的相似样本构成所述查询样本的邻居域;
基于所述查询样本的邻居域对所述查询样本进行分类。
可选地,所述基于所述样本池中的样本特征的空间分布,从所述样本池中选取与所述查询样本相似的样本构成所述查询样本的邻居域,包括:
根据预设的平均局部密度占比范围,求得样本池中任意样本的局部密度;
基于求得的任意样本的局部密度,得到所述样本池中任意样本的局部簇中心;
将与所述查询样本具有相同局部簇中心的样本添加至所述查询样本的邻居域中,构成所述查询样本的邻居域。
可选地,所述平均局部密度占比范围为所有样本的平均局部密度占样本总数的比例。
可选地,所述平均局部密度占比范围为[2%,3%]。
可选地,所述基于求得的任意样本的局部密度,得到所述样本池中任意样本的局部簇中心,包括:
从所述样本池中选取局部密度大于所述任意样本的局部密度的样本;
将所选取的样本中与所述任意样本之间的距离最小的样本,作为所述任意样本的局部簇中心。
可选地,当与所述查询样本具有相同局部簇中心的样本的数量小于所述查询样本的邻居域中样本的预设需求数量时,所述基于所述样本池中的样本特征的空间分布,从所述样本池中选取与所述查询样本相似的样本构成所述查询样本的邻居域,还包括:
从所述样本池中剩余的训练样本中选取与所述查询样本距离最近的对应数量的样本加入所述查询样本的邻居域中。
可选地,所述基于所述查询样本的邻居域对所述查询样本进行分类,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910530008.1/2.html,转载请声明来源钻瓜专利网。