[发明专利]一种自动确定聚类中心的混合属性数据集聚类方法在审
申请号: | 202010110021.4 | 申请日: | 2020-02-23 |
公开(公告)号: | CN111353529A | 公开(公告)日: | 2020-06-30 |
发明(设计)人: | 孙志冉;苏航;梁毅;韩永鹏 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/906 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 刘萍 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自动 确定 中心 混合 属性 数据 集聚 方法 | ||
1.一种自动确定聚类中心的混合属性数据集聚类方法,其特征在于:该聚类方法分为四个步骤:初始化、聚类中心点预选取、确定聚类中心点、迭代聚类划分过程;该聚类方法有一个基本的参数:近邻占比pd,pd取值在1%~2%之间;
步骤(1):初始化,获取数据,并对其进行预处理
步骤(1.1):获取混合属性数据集合U={xi|1≤i≤N},N表示数据的总个数,其中,对于任一数据xi∈U,xi是由M个属性描述的数据对象;表示M个属性组成的有限属性集合,其中表示Mr个数值型属性,表示Mc个分类型属性,M=Mr+Mc;V={vj|1≤j≤M}表示所有属性值域的集合,vj表示属性aj的取值集合,aj∈A,若1≤j≤Mr,则vj由实数域表示数值属性取值集合,若Mr<j≤M,则表示分类属性取值集合,nj表示分类属性aj的不同取值个数;xi用M元组表示,其中数据对象xi在属性aj上的取值xij∈vj;
步骤(1.2):对集合U中所有数据对象的的数值型属性根据公式(1)进行Min-Max标准线性归一化处理,
其中,1≤j≤Mr,xi∈U,1≤i≤N,xh∈U,1≤h≤N,x′ij表示数据对象xi在属性aj上的原取值,xij表示归一化后的取值,表示数据集合U在属性aj下所有数据的最小值,表示数据集合U在属性aj下所有数据的最大值,x′hj表示数据对象hi在属性aj上的原取值;
步骤(2):聚类中心点预选取
步骤(2.1):根据信息熵来确定各属性的重要程度,对各属性计算权重,属性aj权重值ωj表示为
其中1≤j≤M,0≤ωj≤1,H(aj)表示属性aj的信息熵,表示所有属性信息熵之和,a′j表示属性集合A中的任一元素,1≤j′≤M;对于数值属性aj,1≤j≤Mr,表示在属性aj下对象xi的取值xij所占的比重;对于分类属性aj,Mr≤j≤M,表示在属性aj下第t个属性值所占的比重,N表示数据集U的元素个数,1≤t≤nj,nj表示分类属性aj的不同取值个数,故各属性的信息熵表示为:
步骤(2.2):获取集合U中任意两个元素xi和xh,根据公式(4)计算xi和xh两个数据对象之间的距离
d(xi,xh)=dr(xi,xh)+dc(xi,xh) (4)
其中数值属性间距离分类属性间距离xij表示数据对象xi在属性aj上的取值,xhj表示数据对象xh在属性aj上的取值;
步骤(2.3):确定截断距离dcut,根据近邻占比pd,将所有d(xi,xj)由小到大排序后排在pd处的值取作dcut,表示在dcut距离范围内的数据对象,视为近邻点;
步骤(2.4):对于任一xi∈U,根据公式(5)计算其局部密度ρi
其中,xh∈U,1≤h≤N且h≠i;
步骤(2.5):根据公式(6)对每个数据对象xi,计算其到局部密度高于它且距离最近的数据对象xh之间的高密度距离δi;
步骤(2.6):根据公式(7)得到预选初始中心点集合Zp
Zp={xi|1≤i≤N,δi>μ(δ),ρi>μ(ρ)} (7)
其中,μ(δ)表示所有数据对象δi的均值,μ(ρ)表示ρi的均值;
步骤(3):确定聚类中心点
步骤(3.1):对于任一xi∈Zp,根据公式(8)计算其γi值,γi综合考虑了局部密度和高密度距离,且忽略了量纲的差异,γi值越大越可能成为中心点
步骤(3.2):根据预选初始中心点集合Zp中数据对象的γi值、对象间的距离及截断距离dcut,确定最终初始中心点集合Z0:
步骤(3.2.1):确定预选初始中心点集合Zp中γi值最大的数据对象x(1),作为第一个确认的中心点,添加到最终的初始中心点集合Z0中,并将x(1)从集合Zp中移除;
步骤(3.2.2):从预选初始中心点集合Zp剩余元素中,选择γi值最大的数据对象,计算与最终初始中心点集合Z0中所有元素的距离,若皆大于2dl则表示该数据对象作为初始中心点,将该元素添加入Z0中,并从集合Zp中移除;否则,将该元素从集合Zp中移除;
步骤(3.2.3):若预选初始中心点集合Zp为空,则执行步骤(4),否则执行步骤(3.2.2);
步骤(4):迭代聚类划分
步骤(4.1):定义类簇集合C={C1,C2,…,Ck},其中k为类簇个数,并且集合中任意两个元素间的交集为空,即C是U的一个划分,步骤(3)得到的集合Z0中元素分别作为各类簇的初始中心点,k=|Z0|;
步骤(4.2):对于任一xi∈U,根据公式(4)计算xi到各初始类簇中心的距离,并将数据对象划分到距离最近的类簇中;
步骤(4.3):对任一Cl∈C,计算其聚类中心点zl,类中心的数值型属性值为该类簇中所有该属性值的平均值,分类型属性值为该属性的所有属性值及其出现频率组合,zl用M元组表示,根据公式(9)计算聚类中心点zl在属性aj下的取值zlj
其中表示属性值在类簇Cl中的出现比例,并且vjt表示属性aj下的第t个属性值,1≤t≤nj,nj表示分类属性aj的不同取值个数;
步骤(4.4.1):对于任一Cl∈C,获取其聚类中心点zl,根据公式(10)计算数据对象到各类簇聚类中心的距离:
d(xi,zl)=dr(xi,zl)+dc(xi,zl) (10)
数值属性相异度度量采用欧式距离公式,计算公式定义为分类属性相异度度量结合中心点表示方法,定义为其中
步骤(4.4.2):确定集合C中的元素Cnear,使类簇Cnear的中心点Znear满足d(xi,znear)=min{d(xi,zl)|1≤l≤k,1≤i≤N},并将xi从原类簇中移除,添加进新的类簇Cnear中;
步骤(4.5):判断类簇划分是否有变化,若无变化,说明聚类过程已经收敛,输出聚类结果即类簇划分集合C,并执行步骤(5);否则执行步骤(4.3);
步骤(5):结束:中止对数据集的聚类功能。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010110021.4/1.html,转载请声明来源钻瓜专利网。