[发明专利]基于聚类和匈牙利算法的数据分类方法有效

专利信息
申请号: 201310220527.0 申请日: 2013-06-05
公开(公告)号: CN104216920B 公开(公告)日: 2017-11-21
发明(设计)人: 胡勇 申请(专利权)人: 北京齐尔布莱特科技有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京市盛峰律师事务所11337 代理人: 赵建刚
地址: 100080 北京市海*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 匈牙利 算法 数据 分类 方法
【说明书】:

技术领域

发明属于数据分类技术领域,具体涉及一种基于聚类和匈牙利算法的数据分类方法。

背景技术

对样本分析时,经常是部分样本的类别已知,已知类别的样本并不很多,而且,可能有背景噪音不属于任何类别。

因此,对于该类问题,如果使用分类算法,不能生成可信赖的分类器,即:产生的分类器可能偏差较大,又不能把无未标注的类分出来;如果用聚类算法,又忽视了已标注样本的参考价值;而且,聚类算法也无法解决对背景噪音的处理分类问题。比较接近的方法为部分半监督学习算法,目前主要有两种:第一种,从已标注和未标注样本中进行学习;第二种,从正例和未标注样本中学习。对于第一种,要求已标注的类别全部有标注样本,局限性较大。而对于第二种,是对正例与反例的二分类算法,无法解决部分类进行了标注、部分类未标注的情况;也不能解决有背景噪音的情况。

发明内容

针对现有技术存在的缺陷,本发明提供一种基于聚类和匈牙利算法的数据分类方法,能够准确简单的对数据进行分类,且分类结果精确。

本发明采用的技术方案如下:

本发明提供一种基于聚类和匈牙利算法的数据分类方法,包括以下步骤:

S1,读取原始样本集{X1、X2...XN};

原始样本集{X1、X2...XN}包括已知分类样本子集{X1、X2...Xn}和未知分类样本子集{Xn+1、Xn+2...XN};其中,已知分类样本子集{X1、X2...Xn}中各个样本所属类别Yi分别为Y1、Y2...Yn;已知分类样本子集中已知类别个数为L;

未知分类样本子集{Xn+1、Xn+2...XN}中未知类别个数为C;

S2,将原始样本集{X1、X2...XN}中所有样本视为无分类样本,对原始样本集中的所有样本采用聚类方法进行首次聚类,得到L+C个类别;

S3,将L个已知类别通过匈牙利算法指派到L+C个类别中的L个类别,将首次聚类得到的类别与已知类别对应上;

S4,将已知分类样本子集{X1、X2...Xn}中各个样本划分到其归属的类中,然后保持已知分类样本子集{X1、X2...Xn}中各个样本所属类不变,再次聚类,使用目标函数迭代未标注的样本,使未标注的样本分到某个类别或视为背景噪音。

优选的,S2中,所述聚类方法为KMeans聚类方法或分层聚类方法。

优选的,S4中,再次聚类时所采用的聚类方法为KMeans聚类方法或分层聚类方法。

优选的,S4中,使用目标函数迭代未标注的样本,使未标注的样本分到某个类别或视为背景噪音,具体为:

使用目标函数迭代未标注的样本,通过目标函数是否达到极值识别背景噪音;当本次迭代结果与上次迭代结果不再发生变化时,或目标函数不再发生变化时,结束分类。

优选的,所述目标函数设定为:类间分散度*类内聚合度*识别率。

优选的,所述类间分散度用间平均距离、类间均方距离、类间最小距离或类间最大距离表示。

优选的,所述类内聚合度用类内平均距离、类内均方距离或类内最大距离表示。

优选的,所述识别率表达式为:类别个数/总样本个数。

本发明的有益效果如下:

本发明提供一种基于聚类和匈牙利算法的数据分类方法,适用于以下情况:部分样本的分类已知,已知分类的样本点不需很多,可以有部分未知分类即该类尚无标注的样本点,而且可以有背景噪音即噪音点不属于任何类;能够准确简单的对数据进行分类,且分类结果精确。

附图说明

图1为本发明提供的基于聚类和匈牙利算法的数据分类方法流程示意图;

图2为实施例二中原始样本集显示图;

图3为实施例二中样本期望分类显示图;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京齐尔布莱特科技有限公司,未经北京齐尔布莱特科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310220527.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top