[发明专利]基于语义的改进的k-means算法的搜索方法在审
申请号: | 201811091473.1 | 申请日: | 2018-09-18 |
公开(公告)号: | CN109492022A | 公开(公告)日: | 2019-03-19 |
发明(设计)人: | 暴建民;刘喆 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06K9/62 |
代理公司: | 南京正联知识产权代理有限公司 32243 | 代理人: | 王素琴 |
地址: | 210003 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种基于语义的改进的k‑means算法的搜索方法,对数据集进行预处理,得到初始聚类数量k、聚类数据集D,与初始聚类中心集合C:C1、C2、C3…、Cs作为输入;将数据集中的样本分配到输入入参最近的簇中;计算聚类的每个类的质心点,并判断聚类中心点的改变量是否满足设定的条件,若满足则将其加入特征集中,同时,将其中数据集中删除;若数据集样本不为空,则遍历中心点个数,数据集为空时,结束并获得聚类信息;通过使用UCI数据库提供的6个常用数据集,进行仿真实验,结果显示该种基于语义的改进的k‑means算法的搜索方法,与现有技术相比,在数据迭代时间有所减少,聚类精度方面有所提高改善。 | ||
搜索关键词: | 数据集 语义 聚类 搜索 数据集中 算法 预处理 初始聚类中心 改进 仿真实验 聚类数据 聚类信息 聚类中心 数据迭代 样本分配 改变量 中心点 遍历 空时 质心 删除 样本 数据库 集合 | ||
【主权项】:
1.一种基于语义的改进的k‑means算法的搜索方法,其特征在于:包括以下步骤,S1、对数据集进行预处理,得到初始聚类数量k、聚类数据集D,其中聚类数据集D={d1,d2,...,di,...,dn},其中聚类数据集数量为n,与初始聚类中心集合C={C1,C2,...,Ci,...,Cs},其中初始聚类中心数量为s,作为输入;S2、将数据集中的样本根据公式(1)计算需要聚类的数据集D与预处理后的初始聚类中心的欧几里何距离,其中di是数据集样本,Ci是由预处理得到的初始聚类中心,根据计算结果,将数据样本分配到由预处理得到的作为入参的初始聚类中心最近的簇中;其中公式(1)为:其中did、Cid分别为二维坐标下数据集样本di与初始聚类中心Ci的坐标,n为聚类数据集的数量;S3、根据公式(2):其中|Ci|是初始聚类中心Ci中数据对象的个数,计算聚类的每个类的质心点,同时设定初始聚类中心点的改变量α1=0,并根据公式(3)判断聚类质心点的改变量x(Ci)是否满足小于初始设定的条件α1,若满足则将其加入特征集中,同时,将其中数据集中删除;其中公式(3)为:其中,r为算法的迭代次数,Cr,i代表第r次的算法迭代的第i个初始聚类中心;αr代表第r次算法迭代时的聚类中心点的改变量,di与Ci分别指代聚类数据集D中的第i个元素与初始聚类中心集合C中的第i个初始聚类中心;S4、设n为聚类数据空间中所有的数据点的个数,k为输入的初始聚类数量,若数据集样本不为空,遍历中心点个数n,若n小于k,则进入步骤S2,直到n等于k时,进入步骤S5;数据集为空时,进入步骤S6;S5、更新中心点,计算每个聚类中心点的改变量大于设定值的簇的质心,并将其作为新的聚类中心,并回到步骤S2;S6、结束,得到最终聚类结果簇。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811091473.1/,转载请声明来源钻瓜专利网。