[发明专利]一种聚类评估度量方法、系统、装置和存储介质在审
申请号: | 202011107621.1 | 申请日: | 2020-10-16 |
公开(公告)号: | CN112348055A | 公开(公告)日: | 2021-02-09 |
发明(设计)人: | 赵妮;蔡金成 | 申请(专利权)人: | 深圳信息职业技术学院 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 常柯阳 |
地址: | 518172 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 评估 度量 方法 系统 装置 存储 介质 | ||
本发明公开了一种聚类评估度量方法、系统、装置和存储介质,该方法包括:获取待聚类的数据集,采用预设的函数处理数据集,以生成同维度数量级相同的样本集;结合预设的聚类算法和设定的簇数,将样本集生成多个簇,以及获取簇间分散度值与簇内紧密度值;根据对数函数构造惩罚项,结合簇间分散度值、簇内紧密度值和惩罚项,输出第一聚类结果;通过预设的函数处理集待聚类的数据集生成样本集,根据预设的聚类算法与设定的簇数将样本集生成多个簇并输出簇间分散度值和簇内紧密度值,最后结合簇间分散度值、簇内紧密度值和惩罚项,输出第一聚类结果,进而降低了样本各维度量纲以及离群点对聚类结果的影响,实现了聚类效果有效性的提高。
技术领域
本发明涉及数据处理技术领域,尤其涉及一种聚类评估度量方法、系统、装置和存储介质。
背景技术
随着社会的发展和智能时代的到来,聚类技术作为无监督模式识别学习过程的重要部分,在机器学习、模式识别和数据挖掘等重要领域有着广泛的应用。聚类的目的是使原来分散的、看似毫无联系的多个数据样本分成相似的群或簇,来获得某种内的数据规律。聚类的一个关键任务是量化地评价聚类结果,尤其是确定一个最优的簇数或划分结构,聚类结果的好坏是由聚类有效性来判定的。CH(Calinski-Harabasz)指数是一种常见的用于评价聚类效果的度量方法,其定义是不同簇间分散度与簇内紧密度的比值乘以惩罚项。其中簇间分散度是指簇间平方误差和,簇内紧密度是簇内误差平方和,惩罚项是指样本量与类目数之差,得到的值再除以类目数与1的差。其他常见的聚类有效性指标度量还有XB(Xie-Beni)指标、分类适确性指标(DB:Davies-Bouldin)以及轮廓系数(SilhouetteCoefficient)等
但是,聚类有效性指标在计算数据样本的簇间分散度和样本的簇内紧密度是并没有考虑样本各个维度的量纲以及离群点的影响,而样本各维度的量纲和离群点将对聚类效果的有效性产生重要的影响。此外,对于惩罚项,当样本量较大时,对CH的值影响较大,使得簇间分散度与簇内紧密度的影响大大降低。
发明内容
为了解决上述技术问题,本发明的目的是提供一种
本发明所采用的第一技术方案是:
一种聚类评估度量方法,包括以下步骤:
获取待聚类的数据集,采用预设的函数处理数据集,以生成同维度数量级相同的样本集;
结合预设的聚类算法和设定的簇数,将样本集生成多个簇,以及获取簇间分散度值与簇内紧密度值;
根据对数函数构造惩罚项;
结合簇间分散度值、簇内紧密度值和惩罚项,输出第一聚类结果。
进一步作为优选的实施方式,所述获取待聚类的数据集,采用预设的函数处理数据集,以生成同维度数量级相同的样本集这一步骤,具体包括以下步骤:
获取待聚类的数据集;
结合数据集中任意数据在各维度的取值与全体数据集在各维度的均值,生成离差数据集;
结合离差数据集中任意离差数据在各维度的取值与对应数据集中数据在各维度的标准差,生成同维度数量级相同的样本集。
进一步作为优选的实施方式,所述结合预设的聚类算法和设定的簇数,将样本集生成多个簇,以及获取簇间分散度值与簇内紧密度值这一步骤,具体包括以下步骤:
根据预设的聚类算法和设定的簇数将样本集生成多个簇;
获取各个簇内样本点之间的距离矩阵,结合各个簇内样本点之间的距离矩阵计算各个簇的距方均;
结合各个簇的距方均,计算簇内误差平方和,即簇内紧密度值;
获取所有样本点之间的距离矩阵,结合样本点之间的距离矩阵计算所有样本点的距方均;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳信息职业技术学院,未经深圳信息职业技术学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011107621.1/2.html,转载请声明来源钻瓜专利网。