[发明专利]一种自动确定聚类中心的混合属性数据集聚类方法在审

申请号：	202010110021.4	申请日：	2020-02-23
公开（公告）号：	CN111353529A	公开（公告）日：	2020-06-30
发明（设计）人：	孙志冉;苏航;梁毅;韩永鹏	申请（专利权）人：	北京工业大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06F16/906
代理公司：	北京思海天达知识产权代理有限公司 11203	代理人：	刘萍
地址：	100124 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种自动确定中心混合属性数据集聚方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种自动确定聚类中心的混合属性数据集聚类方法，其特征在于：该聚类方法分为四个步骤：初始化、聚类中心点预选取、确定聚类中心点、迭代聚类划分过程；该聚类方法有一个基本的参数：近邻占比p_d，p_d取值在1％～2％之间；

步骤(1)：初始化，获取数据，并对其进行预处理

步骤(1.1)：获取混合属性数据集合U＝{x_i|1≤i≤N}，N表示数据的总个数，其中，对于任一数据x_i∈U，x_i是由M个属性描述的数据对象；表示M个属性组成的有限属性集合，其中表示M_r个数值型属性，表示M_c个分类型属性，M＝M_r+M_c；V＝{v_j|1≤j≤M}表示所有属性值域的集合，v_j表示属性a_j的取值集合，a_j∈A，若1≤j≤M_r，则v_j由实数域表示数值属性取值集合，若M_r＜j≤M，则表示分类属性取值集合，n_j表示分类属性a_j的不同取值个数；x_i用M元组表示，其中数据对象x_i在属性a_j上的取值x_ij∈v_j；

步骤(1.2)：对集合U中所有数据对象的的数值型属性根据公式(1)进行Min-Max标准线性归一化处理，

其中，1≤j≤M_r，x_i∈U，1≤i≤N,x_h∈U，1≤h≤N,x′_ij表示数据对象x_i在属性a_j上的原取值，x_ij表示归一化后的取值，表示数据集合U在属性a_j下所有数据的最小值，表示数据集合U在属性a_j下所有数据的最大值，x′_hj表示数据对象h_i在属性a_j上的原取值；

步骤(2)：聚类中心点预选取

步骤(2.1)：根据信息熵来确定各属性的重要程度，对各属性计算权重，属性a_j权重值ω_j表示为

其中1≤j≤M，0≤ω_j≤1，H(a_j)表示属性a_j的信息熵，表示所有属性信息熵之和，a′_j表示属性集合A中的任一元素，1≤j′≤M；对于数值属性a_j，1≤j≤M_r，表示在属性a_j下对象x_i的取值x_ij所占的比重；对于分类属性a_j，M_r≤j≤M，表示在属性a_j下第t个属性值所占的比重，N表示数据集U的元素个数，1≤t≤n_j，n_j表示分类属性a_j的不同取值个数，故各属性的信息熵表示为：

步骤(2.2)：获取集合U中任意两个元素x_i和x_h，根据公式(4)计算x_i和x_h两个数据对象之间的距离

d(x_i,x_h)＝d_r(x_i,x_h)+d_c(x_i,x_h) (4)

其中数值属性间距离分类属性间距离x_ij表示数据对象x_i在属性a_j上的取值，x_hj表示数据对象x_h在属性a_j上的取值；

步骤(2.3)：确定截断距离d_cut，根据近邻占比p_d，将所有d(x_i,x_j)由小到大排序后排在p_d处的值取作d_cut，表示在d_cut距离范围内的数据对象，视为近邻点；

步骤(2.4)：对于任一x_i∈U，根据公式(5)计算其局部密度ρ_i

其中，x_h∈U，1≤h≤N且h≠i；

步骤(2.5)：根据公式(6)对每个数据对象x_i，计算其到局部密度高于它且距离最近的数据对象x_h之间的高密度距离δ_i；

步骤(2.6)：根据公式(7)得到预选初始中心点集合Z_p

Z_p＝{x_i|1≤i≤N,δ_i＞μ(δ),ρ_i＞μ(ρ)} (7)

其中，μ(δ)表示所有数据对象δ_i的均值，μ(ρ)表示ρ_i的均值；

步骤(3)：确定聚类中心点

步骤(3.1)：对于任一x_i∈Z_p，根据公式(8)计算其γ_i值，γ_i综合考虑了局部密度和高密度距离，且忽略了量纲的差异，γ_i值越大越可能成为中心点

步骤(3.2)：根据预选初始中心点集合Z_p中数据对象的γ_i值、对象间的距离及截断距离d_cut，确定最终初始中心点集合Z₀：

步骤(3.2.1)：确定预选初始中心点集合Z_p中γ_i值最大的数据对象x⁽¹⁾，作为第一个确认的中心点，添加到最终的初始中心点集合Z₀中，并将x⁽¹⁾从集合Z_p中移除；

步骤(3.2.2)：从预选初始中心点集合Z_p剩余元素中，选择γ_i值最大的数据对象，计算与最终初始中心点集合Z₀中所有元素的距离，若皆大于2d_l则表示该数据对象作为初始中心点，将该元素添加入Z₀中，并从集合Z_p中移除；否则，将该元素从集合Z_p中移除；

步骤(3.2.3)：若预选初始中心点集合Z_p为空，则执行步骤(4)，否则执行步骤(3.2.2)；

步骤(4)：迭代聚类划分

步骤(4.1)：定义类簇集合C＝{C₁,C₂,…,C_k}，其中k为类簇个数，并且集合中任意两个元素间的交集为空，即C是U的一个划分，步骤(3)得到的集合Z₀中元素分别作为各类簇的初始中心点，k＝|Z₀|；

步骤(4.2)：对于任一x_i∈U，根据公式(4)计算x_i到各初始类簇中心的距离，并将数据对象划分到距离最近的类簇中；

步骤(4.3)：对任一C_l∈C，计算其聚类中心点z_l，类中心的数值型属性值为该类簇中所有该属性值的平均值，分类型属性值为该属性的所有属性值及其出现频率组合，z_l用M元组表示，根据公式(9)计算聚类中心点z_l在属性a_j下的取值z_lj

其中表示属性值在类簇C_l中的出现比例，并且v_jt表示属性a_j下的第t个属性值，1≤t≤n_j，n_j表示分类属性a_j的不同取值个数；

步骤(4.4.1)：对于任一C_l∈C，获取其聚类中心点z_l，根据公式(10)计算数据对象到各类簇聚类中心的距离：

d(x_i,z_l)＝d_r(x_i,z_l)+d_c(x_i,z_l) (10)

数值属性相异度度量采用欧式距离公式，计算公式定义为分类属性相异度度量结合中心点表示方法，定义为其中

步骤(4.4.2)：确定集合C中的元素C_near，使类簇C_near的中心点Z_near满足d(x_i,z_near)＝min{d(x_i,z_l)|1≤l≤k，1≤i≤N}，并将x_i从原类簇中移除，添加进新的类簇C_near中；

步骤(4.5)：判断类簇划分是否有变化，若无变化，说明聚类过程已经收敛，输出聚类结果即类簇划分集合C，并执行步骤(5)；否则执行步骤(4.3)；

步骤(5)：结束：中止对数据集的聚类功能。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京工业大学，未经北京工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010110021.4/1.html，转载请声明来源钻瓜专利网。

上一篇：一种操作方便电力抢修塔导线提升装置
下一篇：一种基于扩展器提升多硬盘性能的方法和装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种自动确定聚类中心的混合属性数据集聚类方法在审

专利文献下载