[发明专利]一种自动确定聚类中心的混合属性数据集聚类方法在审
申请号: | 202010110021.4 | 申请日: | 2020-02-23 |
公开(公告)号: | CN111353529A | 公开(公告)日: | 2020-06-30 |
发明(设计)人: | 孙志冉;苏航;梁毅;韩永鹏 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/906 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 刘萍 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自动 确定 中心 混合 属性 数据 集聚 方法 | ||
本发明设计了一种自动确定聚类中心的混合属性数据集聚类方法,针对K‑Prototypes聚类算法中需人为指定初始聚类中心和聚类数目导致算法准确度和稳定性低下的问题,该方法分为初始化、聚类中心点预选取、确定聚类中心点、迭代聚类划分过程这四个步骤。该方法根据数据对象的密度分布,实现类簇个数的自动识别,并选择出初始聚类中心,优化初始选点造成的局部最优问题,另外通过区分每个属性对聚类结果的不同影响权重,改进相异度计算公式,提升了聚类的准确度,达到了更好的聚类效果。
技术领域
本发明属于数据挖掘领域,具体涉及同时包括数值型属性和分类型属性的混合型数据集聚类方法。
背景技术
聚类作为数据挖掘领域的重要组成部分,可发现无标注数据的潜在结构和组织规律。在现实的应用中,数据信息中不仅包含着年龄、身高等定量的数值属性,还包含如性别、职业等类别属性。同时包含数值型属性和类别型属性的混合型数据集无处不在。当前解决混合型数据的聚类问题多采用K-Prototypes聚类方法,该方法具备简单高效的特点,应用也十分广泛,但是存在一些不足。K-Prototypes聚类算法中初始聚类中心的随机选择,可能造成收敛结果不同,故算法对初始聚类中心敏感;并且算法数据对象间的相异度度量方式,忽略了数值属性对聚类结果的影响,以及不同属性对聚类结果的不同影响;由于分类属性聚类中心单值表示的问题,造成属性缺失,不能准确刻画类簇的信息,造成分类属性的相异度度量忽略了类内对象的总体相异度,并且当相异度相同时,算法不能准确的划分到相似性更大的类簇中;另外K-Prototypes算法还需人为指定类簇数目,无法自动确定类簇个数,而对于无序的数据信息,类簇数目往往很难确定。而这些问题将对方法的稳定性和准确度造成影响。
发明内容
为解决K-Prototypes聚类算法中需人为指定初始聚类中心和聚类数目导致算法准确度和稳定性低下的问题,本发明提出一种自动确定聚类中心的混合属性数据集聚类方法,该方法根据数据对象的密度和数据对象间的距离,实现类簇个数的自动识别,并选择出初始聚类中心,优化初始选点造成的局部最优问题,保证聚类结果的准确性。另外,在聚类过程中还优化了距离公式,考虑各属性对聚类的不同影响,并保存类簇中重要属性值,以达到更好的聚类效果。
本发明所述的混合属性聚类方法分为四个步骤:初始化、聚类中心点预选取、确定聚类中心点、迭代聚类划分过程。在本方法中,有一个基本的参数:近邻占比pd,pd一般取值在1%~2%之间。
上述方法在计算机上按以下步骤实现:
步骤(1):初始化,获取数据,并对其进行预处理
步骤(1.1):获取混合属性数据集合U={xi|1≤i≤N},N表示数据的总个数,其中,对于任一数据xi∈U,xi是由M个属性描述的数据对象;表示M个属性组成的有限属性集合,其中表示Mr个数值型属性,表示Mc个分类型属性,M=Mr+Mc;V={vj|1≤j≤M}表示所有属性值域的集合,vj表示属性aj的取值集合,aj∈A,若1≤j≤Mr,则vj由实数域表示数值属性取值集合,若Mr<j≤M,则表示分类属性取值集合,nj表示分类属性aj的不同取值个数;xi用M元组表示,其中数据对象xi在属性aj上的取值xij∈vj;
步骤(1.2):对集合U中所有数据对象的的数值型属性根据公式(1)进行Min-Max标准线性归一化处理,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010110021.4/2.html,转载请声明来源钻瓜专利网。