[发明专利]基于聚类和匈牙利算法的数据分类方法有效
申请号: | 201310220527.0 | 申请日: | 2013-06-05 |
公开(公告)号: | CN104216920B | 公开(公告)日: | 2017-11-21 |
发明(设计)人: | 胡勇 | 申请(专利权)人: | 北京齐尔布莱特科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市盛峰律师事务所11337 | 代理人: | 赵建刚 |
地址: | 100080 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种基于聚类和匈牙利算法的数据分类方法,包括读取原始样本集{X1、X2...XN};将原始样本集{X1、X2...XN}中所有样本视为无分类样本,对原始样本集中的所有样本采用聚类方法进行首次聚类,得到L+C个类别;将L个已知类别通过匈牙利算法指派到L+C个类别中的L个类别,将首次聚类得到的类别与已知类别对应上;将已知分类样本子集{X1、X2...Xn}中各个样本划分到其归属的类中,然后保持已知分类样本子集{X1、X2...Xn}中各个样本所属类不变,再次聚类,使用目标函数迭代未标注的样本,使未标注的样本分到某个类别或视为背景噪音。能够准确简单的对数据进行分类,且分类结果精确。 | ||
搜索关键词: | 基于 匈牙利 算法 数据 分类 方法 | ||
【主权项】:
一种基于聚类和匈牙利算法的数据分类方法,其特征在于,包括以下步骤:S1,读取原始样本集{X1、X2…XN};原始样本集{X1、X2…XN}包括已知分类样本子集{X1、X2…Xn}和未知分类样本子集{Xn+1、Xn+2…XN};其中,已知分类样本子集{X1、X2…Xn}中各个样本所属类别Yi分别为Y1、Y2…Yn;已知分类样本子集中已知类别个数为L;未知分类样本子集{Xn+1、Xn+2…XN}中未知类别个数为C;S2,将原始样本集{X1、X2…XN}中所有样本视为无分类样本,对原始样本集中的所有样本采用聚类方法进行首次聚类,得到L+C个类别;S3,将L个已知类别通过匈牙利算法指派到L+C个类别中的L个类别,将首次聚类得到的类别与已知类别对应上;S4,将已知分类样本子集{X1、X2…Xn}中各个样本划分到其归属的类中,然后保持已知分类样本子集{X1、X2…Xn}中各个样本所属类不变,再次聚类,使用目标函数迭代未标注的样本,使未标注的样本分到某个类别或视为背景噪音;S2中,所述聚类方法为KMeans聚类方法或分层聚类方法;S4中,再次聚类时所采用的聚类方法为KMeans聚类方法或分层聚类方法;S4中,使用目标函数迭代未标注的样本,使未标注的样本分到某个类别或视为背景噪音,具体为:使用目标函数迭代未标注的样本,通过目标函数是否达到极值识别背景噪音;当本次迭代结果与上次迭代结果不再发生变化时,或目标函数不再发生变化时,结束分类;所述目标函数设定为:类间分散度*类内聚合度*识别率;所述类间分散度用间平均距离、类间均方距离、类间最小距离或类间最大距离表示;可设为:(不同类间样本的平均距离)/(所有有分类的样本间平均距离)=(所有有分类的样本的总距离‑各类内的样本间的总距离)/(所有有分类的样本总距离)*所有有分类的样本数*(所有有分类的样本数‑1)/∑(某分类的样本数*(某分类的样本数‑1));所有有分类的样本间平均距离是指:对Yi>0且Yj>0的所有i,j,求dij的平均值;所有有分类的样本总距离是指:对Yi>0且Yj>0的所有i,j,求dij的总和;所有有分类的样本数是指:对Yi>0所有i的个数;各类内的样本间的总距离是指:对Yi>0,Yj>0且Yi=Yj的所有i,j,求dij的总和;不同类间样本的平均距离是指:对Yi>0,Yj>0且Yi≠Yj的所有i,j,求dij的平均值;所述类内聚合度用类内平均距离、类内均方距离或类内最大距离表示;所述识别率表达式为:类别个数/总样本个数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京齐尔布莱特科技有限公司,未经北京齐尔布莱特科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310220527.0/,转载请声明来源钻瓜专利网。
- 上一篇:一种水箱上横梁的安装结构及其安装、复装方法
- 下一篇:免耕施肥施药穴播机
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置