[发明专利]一种基于CSA的混和属性特征大数据集聚类算法在审
申请号: | 201710188543.4 | 申请日: | 2017-03-27 |
公开(公告)号: | CN107516133A | 公开(公告)日: | 2017-12-26 |
发明(设计)人: | 张汉青;陶长连;郑建全 | 申请(专利权)人: | 九次方大数据信息集团有限公司 |
主分类号: | G06N3/12 | 分类号: | G06N3/12;G06K9/62 |
代理公司: | 北京同辉知识产权代理事务所(普通合伙)11357 | 代理人: | 刘洪勋 |
地址: | 100083 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 csa 混和 属性 特征 数据 集聚 算法 | ||
1.一种基于CSA的混和属性特征大数据集聚类算法,其特征在于,包括如下步骤:
S1,初始化抗体群落;
S2,克隆操作;
S3,免疫基因操作;
S4,克隆选择操作;
S5,克隆死亡操作;
S6,一步迭代算子;
S7,对抗体进行编码,然后重复步骤S2~S6,直到聚类原型收敛到最优解。
2.根据权利要求1所述的给予CSA的混合属性特征大数据集聚类算法,其特征在于,步骤S1具体包括如下步骤:
定义一个目标函数作为本文的聚类准则,如式(1)所示;
式中pi=[pi1,pi2…pim]T表示第i类的原型,wij是目标xj属于第i类的隶属度;W是k×n阶的划分矩阵,且满足概率约束Σki=1wij=1,Pj;d(·)是定义为欧几里德距离的相异性测度;对于具有实特征的数据集,即X<Rm,则有
d2(xj,pi)=(xj-pi)T·(xj-pi) (2)
因为wij是样本xj属于第i类的隶属度,当wij∈{0,1}时,称W是硬k2划分;在硬划分中,wij=1表示样本xj属于第i类;当样本具有数值和类属混和特征时,假设每个样本用xi=[xri1,…,xrit,xci,t+1…,xcim]T表示,混合类型样本xi和xj之间的相异性测度可由式(3)计算:
式中第一项是数值特征上的欧几里德距离平方,第二项是类属特征上的简单的相异匹配测度;δ(·)定义为:
权值λ用来调节两种特征在目标函数中的比例,以避免偏向任何一种特征;对于混合类型的目标,通过修正式(1)中的相异性测度如式(3)而得到新的目标函数;此外,将硬k2划分扩展为模糊划分,对于模糊聚类问题,将目标函数进一步修正为:
令
将式(5)重写为:
对具有数值和类属混合特征的数据集进行模糊聚类分析时,式(8)就是其目标函数;因为Cri和Cci都是非负的,通过分别极小化Cri和Cci,来达到极小化C(W,P)的目的;给wij加上幂指数2使硬划分向模糊划分进行扩展;
克隆选择算法基于抗体克隆选择的生物特性形成一种新的人工免疫系统方法;假设所需优化的函数为Πti=1[di,ui]→R(di<ui),其中t是优化变量的个数,变量xi∈[di,ui],则抗原就是被优化的函数抗体群;A={A1,A2,…,AN}为抗体A的N元组,抗体Ai是解空间St中的一个点;抗体2抗原亲合度函数f一般是的函数,抗体2抗体亲合力定义为:
Wij=||Ai-Aj||,i,j=1,2,...,N (9)
‖·‖为任意范数,W=(Wij)N×N,i,j=1,2,…,N为抗体2抗体亲合力矩阵;克隆选择算法可简单的描述为:step1l=0,初始化抗体群落;A={A1(0),A2(0),…,AN(0)},设定算法参数,计算初始种群的亲合度;step2依据亲和度和设定的抗体克隆规模,进行克隆算子操作,获得新的抗体群;A(l+1);step3l=l+1,若满足终止条件,停止计算;否则,返回step2;
假设M={.A|max(f(.A))=f3,P.A∈SN}为满意种群,即满意种群集M中的任意抗体群;A中至少包含一个最优解f3;证明克隆选择算法生成的抗体种群序列{.A(l),l≥0}是有限非齐次可约马尔可夫链,它以概率1收敛到满意种群M;由式(8)定义的聚类目标函数可知,聚类的目标是要获得数据集X的一个模糊划分矩阵W和聚类的原型P;而W和P是相关的,即已知其一则可求得另一个的解,所以,在基于CSA的模糊聚类算法中,可令一组聚类原型P就是一个抗体,这样把原型中的组特征连接起来,根据各自的取值范围,就可以将其量化值k(用二进制串表示)编码成一个抗体;
式中参数集依据每个原型pi(1≤i≤k)取值;由聚类目标函数定义可知,目标函数越小,则聚类效果越好,而此时抗体2抗原亲合度应该越大;因此我们借助目标函数来构造抗体2抗原亲合度函数如下式:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于九次方大数据信息集团有限公司,未经九次方大数据信息集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710188543.4/1.html,转载请声明来源钻瓜专利网。