[发明专利]一种基于信息熵的聚类划分方法在审
申请号: | 201810810537.2 | 申请日: | 2018-07-23 |
公开(公告)号: | CN109034238A | 公开(公告)日: | 2018-12-18 |
发明(设计)人: | 杜航原;白亮;王文剑 | 申请(专利权)人: | 山西大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 太原市科瑞达专利代理有限公司 14101 | 代理人: | 李富元 |
地址: | 030051 山*** | 国省代码: | 山西;14 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及数据挖掘领域,特别涉及一种基于信息熵的聚类划分方法。一种基于信息熵的聚类划分方法,将聚类划分视为在符号空间中对数据集的一种表示形式,将数据表示中的不确定性表达为信息熵,通过迭代计算获得对数据集的聚类划分,每一次迭代过程中,首先计算每个聚类划分在特征空间中的一致性,进而利用加权方法计算当前聚类划分中任意两个簇构成的集合在符号空间中的一致性,并对一致性最低的两个簇进行合并,通过反复迭代直到满足停止条件,最终进行聚类划分结果的输出。 | ||
搜索关键词: | 聚类 信息熵 符号空间 数据集 表示形式 不确定性 迭代计算 反复迭代 划分结果 数据表示 数据挖掘 特征空间 停止条件 一次迭代 加权 集合 输出 合并 | ||
【主权项】:
1.一种基于信息熵的聚类划分方法,其特征在于:对于样本数量为N的数据集xi表示X中的第i个样本数据,利用迭代计算方法获得对X的聚类划分结果其中表示聚类划分结果中的第k个簇,K为聚类划分结果中簇的数量;每个样本数据中包含M个特征向量,M个特征向量构成的特征向量集合记为其中fj表示第j个特征向量,xi(F)表示样本数据xi在特征向量集合F上的取值,xi(fj)表示样本数据xi在第j个特征向量上的取值;将聚类划分视为对数据的一种符号表示,在迭代计算框架下每次迭代产生一组聚类划分,第m次迭代产生的聚类划分记作其中表示C(m)中的第sm个簇,Sm表示C(m)中的簇数量;第1~m次迭代产生的一系列聚类符号向量构成了集合表示第t次迭代形成的聚类划分对应的聚类符号向量,其中St表示第t次迭代形成的聚类划分中的簇数量,lt,st表示第t个聚类符号向量lt的第st个取值,即C(t)中的第st个簇的标签,xi(L(m))表示样本数据xi在聚类符号向量集合L(m)中的取值,即xi(L(m))样本数据xi在第1~m次迭代产生的一系列聚类划分中对应的全部簇标签,xi(lt)表示样本数据xi在第t个聚类符号向量上的取值,即xi(lt)表示样本数据xi在第t个聚类划分中对应的簇标签,通过迭代计算获得对数据集X的聚类划分结果的过程按照如下步骤进行S10、为便于计算,利用高斯核函数κ对样本空间中的特征向量集合F进行映射,得到新的集合FF,FF中的特征向量服从高斯分布;S20、初始化聚类划分C(1),在这一聚类划分中每个样本被作为一个簇,即其中表示初始聚类划分中的第n个簇;S30、每一次迭代形成一个聚类划分,第m次迭代时产生的聚类划分记为C(m),利用信息熵作为不确定性度量,计算当前聚类划分在特征空间中的一致性:计算特征向量集合FF关于数据集X的条件信息熵,用于表示特征向量集合对数据集描述的不确定性,并分别计算FF关于每个聚类划分的条件信息熵,用于表示特征向量集合对当前聚类划分描述的不确定性,将特征向量集合FF对当前聚类划分描述的不确定性相比对数据集描述的不确定性的降低量作为当前聚类划分在特征空间中的一致性;S40、依据每次迭代中聚类划分在特征空间中的一致性计算当前聚类划分的质量权重;S50、在第m次迭代时产生的聚类划分C(m)中任选2个簇分别记为和利用信息熵作为不确定性度量,计算两个簇构成的集合在符号空间中的一致性:对于m次迭代形成的m个聚类符号向量构成的集合计算聚类符号向量集合L(m)关于数据集X的条件信息熵,用于表示聚类符号向量集合对数据集描述的不确定性,并分别计算L(m)关于任意两个簇构成集合的条件信息熵,用于表示聚类符号向量集合对两个簇构成集合描述的不确定性,将聚类符号向量集合L(m)对两个簇构成集合描述的不确定性相比对数据集描述的不确定性的降低量作为这两个簇构成的集合在符号空间中的一致性;S60、按照步骤S50所述方法,遍历第m次迭代时产生的C(m)中所有两个簇构成的集合,计算该合集在符号空间中的一致性,并选出一致性最小的合集对应的两个簇,将这两个簇进行合并,生成新的聚类划分记作C(m+1),并令m=m+1,当聚类划分中的簇数量等于K进入步骤S70,否则跳转至步骤S30进行下一次迭代;S70、则对聚类划分结果进行输出。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山西大学,未经山西大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810810537.2/,转载请声明来源钻瓜专利网。