[发明专利]面向大数据领域的膜计算数据细胞聚类方法在审
申请号: | 201910692297.5 | 申请日: | 2019-07-30 |
公开(公告)号: | CN110533073A | 公开(公告)日: | 2019-12-03 |
发明(设计)人: | 陆佳炜;赵伟;周焕;吴涵;张元鸣;肖刚 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/00;G06N3/12 |
代理公司: | 33241 杭州斯可睿专利事务所有限公司 | 代理人: | 王利强<国际申请>=<国际公布>=<进入 |
地址: | 310014 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 算法 预处理 有效的结合 计算数据 进化机制 聚类结果 聚类算法 模糊聚类 遗传算法 预定数据 大数据 结合膜 数据簇 聚类 加权 进化 细胞 | ||
一种面向大数据领域的膜计算数据细胞聚类方法,通过基于密度的k‑means算法,对数据进行预处理,克服人为预定数据簇的个数的缺陷,并且得到了相对合理的数据簇划分,同时混合进化机制采用基于层次划分Agnes算法、基于遗传算法(GA)、基于加权模糊聚类(FCM)算法作为进化规则,结合膜计算能有效的结合这三种聚类算法的优点,得到更好的聚类结果。
技术领域
本发明涉及膜计算的应用,尤其是膜计算在数据聚类方面的应用。
背景技术
膜计算是Gheorghe于2000年正式提出的一种新颖的分布式并行计算 理论模型,主要是从生命细胞的结构功能和细胞、组织等细胞集群的协作中抽象 定义得出的计算模型,通常这类计算模型也被称为P系统。P系统可以通过细胞 中对象的进化实现信息的并行计算处理。此外,基于细胞生物学的多样化,人们 通过P系统不同的机制产生了众多变体,从而为处理问题提供更广阔新颖的思路, 例如机器人、图像处理、信号处理、故障诊断、生态学和系统生物学。组织P系 统是膜计算系统的主要类型之一,它抽象在一个公共环境中指导其内多个组织单 膜细胞的进化行为,每一个单膜细胞可以看作是一个具有特异性的信息处理器, 系统中的对象处理主要有进化和转运两种行为,进化由不同细胞内的进化规则指 导完成,而转运则是通过系统定义的转运规则进行。
聚类分析是数据挖掘中的一个核心问题。在很多场合中所获取的数据仅有输 入而没有对应的输出,所以这些数据是未标记的或无监督的。数据聚类是用于处 理这种数据的无监督学习过程,它依据某个相似性度量将对象进行分组,使得同 组中的样本是相似的且不同组的样本是不相似的。聚类方法能够大体上分为3 类:层次方法、划分方法和重叠方法:层次聚类通过连续合并较小的簇为较大的 簇或者分裂较大的簇来实现数据聚类,层次聚类包括凝聚和分裂两种子类型;划 分方法依据某个准则将数据集分解为几个不相交的簇;而重叠方法则以某种方式 放宽相互不重叠的约束实现软的或模糊划分。数据聚类已成功地应用于诸多领域, 如数据挖掘、机器学习、图像处理和生物学等.
彭宏等人引入膜计算理论来处理数据聚类的问题,他们提出了一个特殊的全 连通结构类组织P系统,该系统主要由3个组织细胞构成,其中组织细胞内部包 含了若干个数据细胞,每个数据细胞都代表一个对象,并且这个对象表达一组候 选的数据簇中心,除此之外,该P系统引入3种不同的进化机制来指导数据细胞 对象进化,进化机制对应不同的数据聚类方法,分别在3个数据细胞中采用了基 于遗传算法(GA),基于粒子群算法(PSO),差分进化算法作为进化规则。但他 们提出的膜聚类算法存在一定限制,需要预先指定簇个数。
Bai等将扩展的脉冲神经P系统引入到了层次聚类中。Zhao等构建了基于活 性膜P系统的改进ROCK算法,借助于P系统的极大并行性,极大地降低了改进 之后的聚类算法的时间复杂度。Xue等提出了一种基于网格的带有交流规则的 新型P系统,称为格上交流P系统(communication P system on lattice,简称 LTC-P)。将该系统与基于密度的聚类,基于分层的聚类以及基于划分的聚类进 行结合,用于求解聚类问题。聚类过程在膜中实现,聚类结果通过膜输出。
发明内容
为了解决数据聚类问题,本发明基于组织P系统,利用密度k-means算法进 行数据预处理,得到相对合适的数据簇划分和簇中心,在数据细胞中分别采用基 于层次划分Agnes算法、基于遗传算法(GA)、基于加权模糊聚类(FCM)算法 作为进化规则,提出一种面向大数据领域的膜计算数据细胞聚类方法。
为了解决上述技术问题本发明提供如下的技术方案:
一种面向大数据领域的膜计算数据细胞聚类方法,所述聚类方法包括以下步 骤:
第一步、形式化定义
1.1、组织P系统(P System)定义:
一个度为3的即3个由数据细胞组织P系统可以形式化定义为以下八元组:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910692297.5/2.html,转载请声明来源钻瓜专利网。