[发明专利]一种基于半监督聚类的cop-kmeans方法与系统在审
申请号: | 201810794033.6 | 申请日: | 2018-07-19 |
公开(公告)号: | CN109409394A | 公开(公告)日: | 2019-03-01 |
发明(设计)人: | 丁世飞;秦悦;从林 | 申请(专利权)人: | 中国矿业大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 221116 江苏省徐*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 聚类 半监督聚类 数据对象 算法 半监督聚类算法 数据预处理 人工智能 背景知识 成对约束 定义距离 图像分类 先验条件 先验知识 约束规则 最小距离 输出 引入 分配 应用 成功 | ||
1.一种基于半监督聚类的cop-kmeans方法与系统,其特征在于,主要包括:
步骤1:数据预处理;
步骤2:定义距离函数;
步骤3:按照最小距离原则聚类;
(3.1)kmeans算法
(3.2)Cop-kmeans算法
步骤4:评价或输出,确定最终聚类成果。
(4.1)传统kmeans算法实验结果
(4.2)基于半监督聚类的cop-kmeans方法实验结果。
2.根据权利要求1所述一种基于半监督聚类的cop-kmeans方法与系统,其特征在于,在步骤1中,其中数据预处理阶段,是由于若直接使用原始数据,里面部分不需要的数据会造成影响,给计算带来误差,所以要进行数据预处理。所以在分析之前,要对数据进行标准化。K-means算法的目标函数定义如下:
其中,uj表示样本xi所属的类Cj的中心点。JK-means是数据样本到相应类中心距离的平方和,K-means算法的目标要求JK-means越小越好。
3.根据权利要求1所述一种基于半监督聚类的cop-kmeans方法与系统,其特征在于,在步骤2中需要定义一些分类的统计量,来度量分类对象之间互相相似的程度,从而定量进行分类。采用欧氏距离。
4.根据权利要求1所述一种基于半监督聚类的cop-kmeans方法与系统,其特征在于,在步骤3.1中的kmeans算法。
5.根据权利要求1所述一种基于半监督聚类的cop-kmeans方法与系统,其特征在于,在步骤3.2中的cop-kmeans算法。
在无监督聚类算法中,所有数据样本的类标签事先是未知的。当我们获知了少量样本的真实类标签时,原始数据集X可表示为:
上式中表示nl个已知类标签的样本集合,表示nu个未知类标签的样本集合。一般情况下nl<<nu,即已知类标签样本的数量要远小于未知类标签样本的数量。
6.根据权利要求1所述一种基于半监督聚类的cop-kmeans方法与系统,其特征在于,在步骤4.1中,采用了人工数据集作为测试数据。数据集是通过高斯函数分布模型产生的人工数据集。随机生成3个点集,点到中心点距离服从高斯分布.测试数据集的相关描述如说明书表1所示。实验环境是Windows832位操作系统,matlab软件。
7.根据权利所述一种基于半监督聚类的cop-kmeans方法与系统,其特征在于,在步骤4.2中,假设给定一组c点资料X={x1,...,xc},每一点都有2维;给定一个群聚的数目k,求其最好的聚类结果。这个演示允许您指定任意数量的二维点和一组可选的约束,然后集群点如何约束影响产生的集群。设置随机初始点,选择的集群数量为3(可按需求随机选择)。可出现kmeans算法的集群结果。可以手动加入约束,中键点击并拖动链接两点的Must-link约束(蓝线)。右键点击并拖动链接两点cannot-link约束(红线),在有约束的情况下,形成cop-kmeans算法的实验结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国矿业大学,未经中国矿业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810794033.6/1.html,转载请声明来源钻瓜专利网。