[发明专利]一种聚类评估度量方法、系统、装置和存储介质在审
申请号: | 202011107621.1 | 申请日: | 2020-10-16 |
公开(公告)号: | CN112348055A | 公开(公告)日: | 2021-02-09 |
发明(设计)人: | 赵妮;蔡金成 | 申请(专利权)人: | 深圳信息职业技术学院 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 常柯阳 |
地址: | 518172 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 评估 度量 方法 系统 装置 存储 介质 | ||
1.一种聚类评估度量方法,其特征在于,包括以下步骤:
获取待聚类的数据集,采用预设的函数处理数据集,以生成同维度数量级相同的样本集;
结合预设的聚类算法和设定的簇数,将样本集生成多个簇,以及获取簇间分散度值与簇内紧密度值;
根据对数函数构造惩罚项;
结合簇间分散度值、簇内紧密度值和惩罚项,输出第一聚类结果。
2.根据权利要求1所述的一种聚类评估度量方法,其特征在于,所述获取待聚类的数据集,采用预设的函数处理数据集,以生成同维度数量级相同的样本集这一步骤,具体包括以下步骤:
获取待聚类的数据集;
结合数据集中任意数据在各维度的取值与全体数据集在各维度的均值,生成离差数据集;
结合离差数据集中任意离差数据在各维度的取值与对应数据集中数据在各维度的标准差,生成同维度数量级相同的样本集。
3.根据权利要求2所述的一种聚类评估度量方法,其特征在于,所述结合预设的聚类算法和设定的簇数,将样本集生成多个簇,以及获取簇间分散度值与簇内紧密度值这一步骤,具体包括以下步骤:
根据预设的聚类算法和设定的簇数将样本集生成多个簇;
获取各个簇内样本点之间的距离矩阵,结合各个簇内样本点之间的距离矩阵计算各个簇的距方均;
结合各个簇的距方均确定簇内误差平方和,即簇内紧密度值;
获取所有样本点之间的距离矩阵,结合样本点之间的距离矩阵计算所有样本点的距方均;
结合各个簇的距方均和所有样本点的距方均确定簇间误差平方和,即簇间分散度值。
4.根据权利要求3所述的一种聚类评估度量方法,其特征在于,所述根据簇间分散度值和簇内紧密度值的比值再乘以惩罚项,获取第一聚类结果这一步骤,具体包括以下步骤:
结合簇间分散度值与簇内紧密度值比值再乘以惩罚项获取对应的聚类簇数;
根据预设的聚类簇数输出聚类评估值,若评估值符合预设条件,则输出第一聚类结果,反之,返回执行簇数设定步骤直至聚类簇数对应的评估值符合预设条件为止,并输出第一聚类结果。
5.一种聚类评估度量系统,其特征在于,包括:
生成模块,用于获取待聚类的数据集,采用预设的函数处理数据集,以生成同维度数量级相同的样本集;
获取模块,用于结合预设的聚类算法和设定的簇数,将样本集生成多个簇,以及获取簇间分散度值与簇内紧密度值;
构造模块,用于根据对数函数构造惩罚项;
输出模块,用于结合簇间分散度值、簇内紧密度值和惩罚项,输出第一聚类结果。
6.根据权利要求5所述的一种聚类评估度量系统,其特征在于,所述生成模块包括:
第一获取单元,用于获取待聚类的数据集;
第一生成单元,用于结合数据集中任意数据在各维度的取值与全体数据集在各维度的均值,生成离差数据集;
第二生成单元,用于结合离差数据集中任意离差数据在各维度的取值与对应数据集中数据在各维度的标准差,生成同维度数量级相同的样本集。
7.根据权利要求6所述的一种聚类评估度量系统,其特征在于,所述获取模块包括:
第三生成单元,用于根据预设的聚类算法和设定的簇数将样本集生成多个簇;
第二获取单元,用于获取各个簇内样本点之间的距离矩阵,结合各个簇内样本点之间的距离矩阵计算各个簇的距方均;
第一确定单元,用于结合各个簇的距方均确定簇内误差平方和,即簇内紧密度值;
第三获取单元,用于获取所有样本点之间的距离矩阵,结合样本点之间的距离矩阵计算所有样本点的距方均;
第二确定单元,用于结合各个簇的距方均和所有样本点的距方均确定簇间误差平方和,即簇间分散度值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳信息职业技术学院,未经深圳信息职业技术学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011107621.1/1.html,转载请声明来源钻瓜专利网。