[发明专利]基于语义的改进的k-means算法的搜索方法在审
申请号: | 201811091473.1 | 申请日: | 2018-09-18 |
公开(公告)号: | CN109492022A | 公开(公告)日: | 2019-03-19 |
发明(设计)人: | 暴建民;刘喆 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06K9/62 |
代理公司: | 南京正联知识产权代理有限公司 32243 | 代理人: | 王素琴 |
地址: | 210003 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据集 语义 聚类 搜索 数据集中 算法 预处理 初始聚类中心 改进 仿真实验 聚类数据 聚类信息 聚类中心 数据迭代 样本分配 改变量 中心点 遍历 空时 质心 删除 样本 数据库 集合 | ||
本发明提供一种基于语义的改进的k‑means算法的搜索方法,对数据集进行预处理,得到初始聚类数量k、聚类数据集D,与初始聚类中心集合C:C1、C2、C3…、Cs作为输入;将数据集中的样本分配到输入入参最近的簇中;计算聚类的每个类的质心点,并判断聚类中心点的改变量是否满足设定的条件,若满足则将其加入特征集中,同时,将其中数据集中删除;若数据集样本不为空,则遍历中心点个数,数据集为空时,结束并获得聚类信息;通过使用UCI数据库提供的6个常用数据集,进行仿真实验,结果显示该种基于语义的改进的k‑means算法的搜索方法,与现有技术相比,在数据迭代时间有所减少,聚类精度方面有所提高改善。
技术领域
本发明涉及一种基于语义的改进的k-means算法的搜索方法,属于数据挖掘中的聚类搜索领域。
背景技术
现在由于越来越多的数量庞大的文件和内容存储在网络上,搜索相关内容的问题随之增加。获取相应内容和检索相应信息的能力依然成为一个大问题。检索系统缺乏效率的检索方法仍然是检索的主要问题。主要原因在于网络中的内容能被人类所理解,但被机器处理则会遇到处理信息不准备,效率不高等问题。
传统的检索系统是基于关键字的搜索,在涉及用户需求和内容意义方面的检索能力有限,无法描述搜索词之间的关系。潜在语义索引对于自动生成的文档,利用统计关系来确定语义相关内容。使用潜在语义索引,查询与结果之间的匹配程度,在统计学方法上的排名比较高。
k-means算法是聚类分析最常用的方法之一,最早由MacQueen提出,该算法的精妙之处在于简单、效率高且宜于处理大规模的数据,已经被应用到众多领域,包括:自然语言处理、天文、海洋、土壤等。以下说明传统的k-means及k-means++聚类算法的缺陷。
k-means算法是一个在数据挖掘领域有很大影响力的聚类算法,对于许多领域,比如学校,不同学生群体每日的消费,转账,课程安排等,存在大量数据信息,可以利用k-means算法对大量数据进行处理,便于学校对学生的各个方面进行良好管理。然而传统的k-means算法对初始聚类中心的敏感性相对较高,聚类结果过度依赖于初始中心。K-means算法对初始聚类中心非常敏感,初始聚类中心不同将会使得聚类结果有很大的不同。如果数据中存在异常值,则初始聚类中心的计算会受到影响,导致聚类结果不准确。
在样本数据聚类的过程中,不仅需要计算每个聚类对象与它们中心对象的距离,还需要重新计算中心对象发生变化的聚类的均值,且计算是在一次次迭代中重复完成,当数据样本较多时,过大的计算量会严重影响算法的性能。其次,由于k-means聚类是个动态变化的过程,聚类的过程中将产生一些冗余信息,会对聚类产生一些不必要的干扰。
而k-means++算法是在初始聚类中心的选择上面进行了改进,k-means++算法通过计算每个样本与目前已有聚类中心的最短聚类来选择初始聚类中心,虽然提高了聚类精度,但是效果仍然不好。
自K-means算法提出以来,大量有关K-means算法的研究如雨后春笋般涌现,算法的弊端纷纷暴露出来,主要包括以下4点:第一,必须事先确定K值;第二,聚类结果会受到初始聚类中心影响;第三,处理分类属性数据较为困难且易产生局部最优解;第四,当数据量过大时,不仅使算法的时间开销非常大,且由聚类的动态变化导致的冗余信息也将对算法产生影响。
针对以上K-means算法的不足,国内外学者提出众多的解决方法:有的提出基于密度的改进K均值算法,该算法针对由初始中心点的随机产生导致的聚类结果的不稳定提出了改进算法;有的提出基于密度和最邻近的K-means文本聚类算法;有的提出聚类模式下一种优化的K-means文本特征选择算法,该算法针对K-means算法对类中心点初始值机孤立点过于敏感的问题提出的一种改进算法;有的提出基于信息熵的精确属性赋权K-means聚类算法;还有提出一种基于余弦值和K-means的植物叶片识别方法。但是上述算法的搜索效率均存在着相对不理想的问题。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811091473.1/2.html,转载请声明来源钻瓜专利网。