[发明专利]一种自动确定聚类中心的混合属性数据集聚类方法在审

专利信息
申请号: 202010110021.4 申请日: 2020-02-23
公开(公告)号: CN111353529A 公开(公告)日: 2020-06-30
发明(设计)人: 孙志冉;苏航;梁毅;韩永鹏 申请(专利权)人: 北京工业大学
主分类号: G06K9/62 分类号: G06K9/62;G06F16/906
代理公司: 北京思海天达知识产权代理有限公司 11203 代理人: 刘萍
地址: 100124 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 自动 确定 中心 混合 属性 数据 集聚 方法
【权利要求书】:

1.一种自动确定聚类中心的混合属性数据集聚类方法,其特征在于:该聚类方法分为四个步骤:初始化、聚类中心点预选取、确定聚类中心点、迭代聚类划分过程;该聚类方法有一个基本的参数:近邻占比pd,pd取值在1%~2%之间;

步骤(1):初始化,获取数据,并对其进行预处理

步骤(1.1):获取混合属性数据集合U={xi|1≤i≤N},N表示数据的总个数,其中,对于任一数据xi∈U,xi是由M个属性描述的数据对象;表示M个属性组成的有限属性集合,其中表示Mr个数值型属性,表示Mc个分类型属性,M=Mr+Mc;V={vj|1≤j≤M}表示所有属性值域的集合,vj表示属性aj的取值集合,aj∈A,若1≤j≤Mr,则vj由实数域表示数值属性取值集合,若Mr<j≤M,则表示分类属性取值集合,nj表示分类属性aj的不同取值个数;xi用M元组表示,其中数据对象xi在属性aj上的取值xij∈vj

步骤(1.2):对集合U中所有数据对象的的数值型属性根据公式(1)进行Min-Max标准线性归一化处理,

其中,1≤j≤Mr,xi∈U,1≤i≤N,xh∈U,1≤h≤N,x′ij表示数据对象xi在属性aj上的原取值,xij表示归一化后的取值,表示数据集合U在属性aj下所有数据的最小值,表示数据集合U在属性aj下所有数据的最大值,x′hj表示数据对象hi在属性aj上的原取值;

步骤(2):聚类中心点预选取

步骤(2.1):根据信息熵来确定各属性的重要程度,对各属性计算权重,属性aj权重值ωj表示为

其中1≤j≤M,0≤ωj≤1,H(aj)表示属性aj的信息熵,表示所有属性信息熵之和,a′j表示属性集合A中的任一元素,1≤j′≤M;对于数值属性aj,1≤j≤Mr,表示在属性aj下对象xi的取值xij所占的比重;对于分类属性aj,Mr≤j≤M,表示在属性aj下第t个属性值所占的比重,N表示数据集U的元素个数,1≤t≤nj,nj表示分类属性aj的不同取值个数,故各属性的信息熵表示为:

步骤(2.2):获取集合U中任意两个元素xi和xh,根据公式(4)计算xi和xh两个数据对象之间的距离

d(xi,xh)=dr(xi,xh)+dc(xi,xh) (4)

其中数值属性间距离分类属性间距离xij表示数据对象xi在属性aj上的取值,xhj表示数据对象xh在属性aj上的取值;

步骤(2.3):确定截断距离dcut,根据近邻占比pd,将所有d(xi,xj)由小到大排序后排在pd处的值取作dcut,表示在dcut距离范围内的数据对象,视为近邻点;

步骤(2.4):对于任一xi∈U,根据公式(5)计算其局部密度ρi

其中,xh∈U,1≤h≤N且h≠i;

步骤(2.5):根据公式(6)对每个数据对象xi,计算其到局部密度高于它且距离最近的数据对象xh之间的高密度距离δi

步骤(2.6):根据公式(7)得到预选初始中心点集合Zp

Zp={xi|1≤i≤N,δi>μ(δ),ρi>μ(ρ)} (7)

其中,μ(δ)表示所有数据对象δi的均值,μ(ρ)表示ρi的均值;

步骤(3):确定聚类中心点

步骤(3.1):对于任一xi∈Zp,根据公式(8)计算其γi值,γi综合考虑了局部密度和高密度距离,且忽略了量纲的差异,γi值越大越可能成为中心点

步骤(3.2):根据预选初始中心点集合Zp中数据对象的γi值、对象间的距离及截断距离dcut,确定最终初始中心点集合Z0

步骤(3.2.1):确定预选初始中心点集合Zp中γi值最大的数据对象x(1),作为第一个确认的中心点,添加到最终的初始中心点集合Z0中,并将x(1)从集合Zp中移除;

步骤(3.2.2):从预选初始中心点集合Zp剩余元素中,选择γi值最大的数据对象,计算与最终初始中心点集合Z0中所有元素的距离,若皆大于2dl则表示该数据对象作为初始中心点,将该元素添加入Z0中,并从集合Zp中移除;否则,将该元素从集合Zp中移除;

步骤(3.2.3):若预选初始中心点集合Zp为空,则执行步骤(4),否则执行步骤(3.2.2);

步骤(4):迭代聚类划分

步骤(4.1):定义类簇集合C={C1,C2,…,Ck},其中k为类簇个数,并且集合中任意两个元素间的交集为空,即C是U的一个划分,步骤(3)得到的集合Z0中元素分别作为各类簇的初始中心点,k=|Z0|;

步骤(4.2):对于任一xi∈U,根据公式(4)计算xi到各初始类簇中心的距离,并将数据对象划分到距离最近的类簇中;

步骤(4.3):对任一Cl∈C,计算其聚类中心点zl,类中心的数值型属性值为该类簇中所有该属性值的平均值,分类型属性值为该属性的所有属性值及其出现频率组合,zl用M元组表示,根据公式(9)计算聚类中心点zl在属性aj下的取值zlj

其中表示属性值在类簇Cl中的出现比例,并且vjt表示属性aj下的第t个属性值,1≤t≤nj,nj表示分类属性aj的不同取值个数;

步骤(4.4.1):对于任一Cl∈C,获取其聚类中心点zl,根据公式(10)计算数据对象到各类簇聚类中心的距离:

d(xi,zl)=dr(xi,zl)+dc(xi,zl) (10)

数值属性相异度度量采用欧式距离公式,计算公式定义为分类属性相异度度量结合中心点表示方法,定义为其中

步骤(4.4.2):确定集合C中的元素Cnear,使类簇Cnear的中心点Znear满足d(xi,znear)=min{d(xi,zl)|1≤l≤k,1≤i≤N},并将xi从原类簇中移除,添加进新的类簇Cnear中;

步骤(4.5):判断类簇划分是否有变化,若无变化,说明聚类过程已经收敛,输出聚类结果即类簇划分集合C,并执行步骤(5);否则执行步骤(4.3);

步骤(5):结束:中止对数据集的聚类功能。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010110021.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top