[发明专利]一种基于信息熵的聚类划分方法在审
申请号: | 201810810537.2 | 申请日: | 2018-07-23 |
公开(公告)号: | CN109034238A | 公开(公告)日: | 2018-12-18 |
发明(设计)人: | 杜航原;白亮;王文剑 | 申请(专利权)人: | 山西大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 太原市科瑞达专利代理有限公司 14101 | 代理人: | 李富元 |
地址: | 030051 山*** | 国省代码: | 山西;14 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 聚类 信息熵 符号空间 数据集 表示形式 不确定性 迭代计算 反复迭代 划分结果 数据表示 数据挖掘 特征空间 停止条件 一次迭代 加权 集合 输出 合并 | ||
本发明涉及数据挖掘领域,特别涉及一种基于信息熵的聚类划分方法。一种基于信息熵的聚类划分方法,将聚类划分视为在符号空间中对数据集的一种表示形式,将数据表示中的不确定性表达为信息熵,通过迭代计算获得对数据集的聚类划分,每一次迭代过程中,首先计算每个聚类划分在特征空间中的一致性,进而利用加权方法计算当前聚类划分中任意两个簇构成的集合在符号空间中的一致性,并对一致性最低的两个簇进行合并,通过反复迭代直到满足停止条件,最终进行聚类划分结果的输出。
技术领域
本发明涉及数据挖掘领域,特别涉及一种基于信息熵的聚类划分方法。
背景技术
聚类分析是在没有任何可供学习的样本情况下,将对象集自动划分的一种分析方法,其核心是将对象组织成一个个的簇,以使得同一簇内的对象相似,而不同簇间的对象不相似。聚类分析在许多领域中有着重要的作用,例如人工智能,生物学,数据压缩,数据挖掘,图像处理,机器学习,营销,医药,模式识别,心理学和推荐系统等。聚类划分算法一般都需要采用相似性度量和聚类准则,而这当中潜含着对数据中包含的类结构的某种假设,当这些假设与样本数据不相符时,它可能产生错误或没有意义的结果。所以面对诸多的聚类算法,聚类分析者不但要完全理解特定的技术,而且也要了解数据获取过程的细节和一些领域知识以便做出适当的选择。然而,聚类作为一种非监督学习方法,由于对先验信息的缺失,导致对聚类划分结果的质量和有效性无法做出客观评价,使算法的可用性大打折扣。为此,应当为聚类过程设置一个有效性目标,在这一目标下获得数据集的最优聚类划分结果。
公开号为CN106294394A的专利《数据聚类方法和数据聚类系统》公开了一种数据聚类方法和一种数据聚类系统,其中,所述方法包括:接收创建命令,创建反馈词集合;根据所述反馈词集合对当前数据进行聚类,以将所述当前数据聚类成多个当前类别,并将所述多个当前类别呈现给用户;接收所述用户对所述多个当前类别的第一反馈,以对所述反馈词集合进行更新。通过本发明的技术方案,通过用户的反馈对反馈词集合进行更新,从而使根据更新后的反馈词集合对数据进行聚类得到的类别是用户所感兴趣的,进而提高了数据聚类的准确率和效率。公开号为CN106991430A的专利《一种基于临近点法的聚类个数自动确定谱聚类方法》,包括以下步骤:1)对数据集的所有维进行了归一化处理;2)通过临近点法计算出区间稀疏距离矩阵以及定义为临近点距离均值的局部尺度参数,得到整体稀疏相似度矩阵;3)调用CCFD方法确定数据点的局部密度和具有更高局部密度的其他点的最小距离,得到在置信区间外的拟合产生的奇异点个数;4)依据公式计算出度矩阵D和拉普拉斯矩阵L,并对L进行特征分解取出特征向量组;5)输出聚类结果;6)选取最高Fitness函数值所对应的最优临近点个数的聚类结果进行输出。本发明能够根据数据分布估计每个数据点的局部尺度参数,自动确定聚类中心的个数,并且实现了临近点个数的参数自适应。公开号为CN106776751A的专利《一种数据的聚类方法和聚类装置》,用于解决现有聚类过程中受初始条件影响聚类效果差的技术问题。数据的聚类方法,包括:获取待处理数据,所述待处理数据包括测试数据和非测试数据;对测试数据进行第一分类处理,得到第一分类结果;采用初始预设值对测试数据进行第二分类处理,得到第二分类结果;比较所述第二分类结果和所述第一分类结果,当以第一分类结果为标准得到第二分类结果的准确率大于或等于阈值时,将所述初始预设值作为目标预设值;当小于阈值时,不断调整所述初始预设值,直至将所述初始预设值调整为目标预设值时得到新的第二分类结果的准确率大于或等于阈值;采用目标预设值对非测试数据进行第二分类处理。
一般情况下,对于数据集的记录和描述是在特征空间中利用特征向量实现的,而聚类划分结果可以视为在符号空间中利用聚类符号向量对数据集的描述,那么一个高质量的聚类划分结果应当在特征空间和符号空间中获得较高的对数据描述的一致性。为此,本发明提出一种基于信息熵的聚类划分方法,利用信息熵表达数据描述中的不确定性,进而分别计算聚类划分在特征空间和符号空间中对数据描述的一致性,在迭代计算框架下实现数据集的聚类划分,使聚类划分结果更具准确性和鲁棒性。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山西大学,未经山西大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810810537.2/2.html,转载请声明来源钻瓜专利网。