[发明专利]基于语义的改进的k-means算法的搜索方法在审
申请号: | 201811091473.1 | 申请日: | 2018-09-18 |
公开(公告)号: | CN109492022A | 公开(公告)日: | 2019-03-19 |
发明(设计)人: | 暴建民;刘喆 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06K9/62 |
代理公司: | 南京正联知识产权代理有限公司 32243 | 代理人: | 王素琴 |
地址: | 210003 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据集 语义 聚类 搜索 数据集中 算法 预处理 初始聚类中心 改进 仿真实验 聚类数据 聚类信息 聚类中心 数据迭代 样本分配 改变量 中心点 遍历 空时 质心 删除 样本 数据库 集合 | ||
1.一种基于语义的改进的k-means算法的搜索方法,其特征在于:包括以下步骤,
S1、对数据集进行预处理,得到初始聚类数量k、聚类数据集D,其中聚类数据集D={d1,d2,...,di,...,dn},其中聚类数据集数量为n,与初始聚类中心集合C={C1,C2,...,Ci,...,Cs},其中初始聚类中心数量为s,作为输入;
S2、将数据集中的样本根据公式(1)计算需要聚类的数据集D与预处理后的初始聚类中心的欧几里何距离,其中di是数据集样本,Ci是由预处理得到的初始聚类中心,根据计算结果,将数据样本分配到由预处理得到的作为入参的初始聚类中心最近的簇中;其中公式(1)为:
其中did、Cid分别为二维坐标下数据集样本di与初始聚类中心Ci的坐标,n为聚类数据集的数量;
S3、根据公式(2):其中|Ci|是初始聚类中心Ci中数据对象的个数,计算聚类的每个类的质心点,同时设定初始聚类中心点的改变量α1=0,并根据公式(3)判断聚类质心点的改变量x(Ci)是否满足小于初始设定的条件α1,若满足则将其加入特征集中,同时,将其中数据集中删除;其中公式(3)为:
其中,r为算法的迭代次数,Cr,i代表第r次的算法迭代的第i个初始聚类中心;αr代表第r次算法迭代时的聚类中心点的改变量,di与Ci分别指代聚类数据集D中的第i个元素与初始聚类中心集合C中的第i个初始聚类中心;
S4、设n为聚类数据空间中所有的数据点的个数,k为输入的初始聚类数量,若数据集样本不为空,遍历中心点个数n,若n小于k,则进入步骤S2,直到n等于k时,进入步骤S5;数据集为空时,进入步骤S6;
S5、更新中心点,计算每个聚类中心点的改变量大于设定值的簇的质心,并将其作为新的聚类中心,并回到步骤S2;
S6、结束,得到最终聚类结果簇。
2.如权利要求1所述的基于语义的改进的k-means算法的搜索方法,其特征在于:步骤S1中,对数据集进行预处理,具体为,
S11、对于给定需要聚类的数据集,根据公式(4)计算所有样本的密度,选择样本最大密度C1作为第一个聚类中心,并将C1加入聚类中心集合C中,有C={C1};其中公式(4)具体为,聚类数据集D中的样本元素i的密度定义为:
其中,n为聚类数据集D中的样本个数,dij为聚类数据集样本D中第i个元素与第j个聚类中心的欧几里何距离,其中f(x)的定义如下公式表示;
其中,若dij–MeansDis(D)小于0,f(x)赋值为1,若dij–MeansDis(D)大于等于0,f(x)赋值为0;
其中,MeanDis(D)为聚类数据集D中的所有样本元素的平均距离:
其中,n为聚类数据集D中的样本个数,di、dj为别为聚类数据集D中第i个元素与第j个元素;
S12、根据步骤S11中公式(4)得到所有样本元素的样本密度ρ(i),根据公式(5):得到聚类簇的样本密度a(i);
通过公式(6):
得到簇间的紧密性s(i);
S13、若计算得到的样本的ρ(i)小于s(i),则认为其值为异常值,并从数据集D中移除;
S14、计算剩余数据集样本中的ρ(i)、a(i)和s(i),同时,根据公式(8):
与步骤S11计算的样本最大密度比较,判断是否为最大权重值即是否大于其样本最大密度,若是,则进入步骤S15;若不是最大权重值,则进入步骤S12;
S15、获取下一个聚类中心,将上面步骤中所有满足规定条件,即计算的样本数据的最大权重值大于其最大密度,将其样本数据从数据集中删除;
S16、重复上述步骤S12-S15直到数据集为空,完成数据集的预处理,得到聚类数量k,作为初始聚类数量,与初始聚类中心:C1、C2、C3…、Cs,作为改进k-means算法的输入。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811091473.1/1.html,转载请声明来源钻瓜专利网。