[发明专利]一种高斯混合模型树及其递增聚类方法有效
申请号: | 201410035056.0 | 申请日: | 2014-01-24 |
公开(公告)号: | CN103823843B | 公开(公告)日: | 2017-02-22 |
发明(设计)人: | 刘峡壁;伍艺;万玉钗 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 混合 模型 及其 递增 方法 | ||
技术领域
本发明涉及一种递增聚类结构——高斯混合模型树,及其递增聚类方法,属于计算机应用技术中的聚类技术领域。
背景技术
随着大数据时代的到来,数据在人们的生活和工作中起到越来越重要的作用。目前,在互联网上已经存在海量的数据,并且其数量还在高速增长。例如,据Alexa统计,最出名的在线照片分享网站www.flickr.com,全球访问量排名二十三,月均访问量达六千万,共上传五十多亿张照片。为了更好的将数据进行自动的分类,聚类技术受到了越来越多的关注。
目前,已有的聚类方法大多为静态聚类方法,即每次执行聚类方法之前都需要扫描整个数据集,诸如K-均值方法,EM-MDL方法,DENCLUE方法,CLIQUE方法等。但是,在大数据时代,传统的静态聚类方法面临着较大的技术瓶颈:第一,随着数据量的不断增大,数据占有的内存空间也随之增加,当数据集本身占有的空间超过了计算机内存的空间时,数据集中的数据不能被预先存储至计算机内存;第二,随着数据增长的速度不断提高,如果每次执行聚类方法都需要对整个数据集进行重新聚类,计算复杂度和时间复杂度都变得很难接受。
递增式聚类方法可以较好的解决以上问题,但相关研究仍处于发展较为初级的阶段。递增式聚类方法可以分批次地将图片读取至内存,进行聚类,鲁棒的递增式聚类方法的聚类结果可以接近甚至优于传统静态聚类方法。
BIRCH是一种经典的递增式聚类方法,并以树型结构表示聚类过程和结果,每个节点表示数据的特征,包括数据的数量,数据的线性和,数据的平方和,但是BIRCH方法只能得到最小的数据单元;Littau和DanielBoley使用低内存的分解式矩阵来表示数据,并用这种矩阵来完成聚类;Duan在传统Clique方法的基础上提出了K-Clique方法,该方法主要基于深度优先的“搜索森林”数据更新技术;Ester等人改进了传统的DBSCAN方法,使之具有递增式聚类方法的优点,在数据插入和删除时只影响它临近的数据。
发明内容
本发明的目的是为了解决在大数据时代,随着数据量和数据增长速度的增加,传统聚类方法在计算复杂度和时间复杂度方面变得难以接受问题而提出了一种高斯混合模型树及其递增聚类方法。
本发明的目的是通过下述技术方案实现的。
一种高斯混合模型树及其递增聚类方法,包括两部分:
(1)一种新的聚类结构——高斯混合模型树(聚类树),高斯混合模型树的叶子节点对应着单个高斯成分,反映了该高斯混合模型树中最稠密的数据分布,分布的稠密程度由单高斯成分的最大方差控制。数据稠密程度自下而上变得稀疏,树的高层节点由低层的节点组合而成,即高斯成分的组合,高层节点对应更稀疏的数据分布,根节点对应着整个数据集的高斯分布,也是该高斯混合模型树中最稀疏的数据分布。该高斯混合模型树由上述的叶子节点和高层节点构成,反映了数据聚类、子聚类、整个数据集的关系;叶子节点对应单个高斯成分,节点对应高斯混合模型;树的构建方式是自底向上的;
(2)在(1)的基础上,提出基于高斯混合模型树的递增聚类方法;其中,递增聚类方法包括数据插入、更新聚类树、数据删除和聚类结果确定。这四个技术环节的关系为:对于每一个新数据,都需要插入到现有的高斯混合模型树,再根据插入的结果更新聚类树;随着新数据的插入,检查已经插入到聚类树的数据是否需要删除,如果需要删除,则删除数据;当所有数据读取完成之后,确定聚类结果。
技术环节1.数据插入:将每一个新数据插入至高斯混合模型树的叶子层,有可能插入到现有的叶子节点,也有可能生成新的叶子节点;判断是否生成新叶子节点的标准为:计算新插入的数据与叶子节点的均值的欧氏距离;
技术环节2.更新聚类树:当新的数据被插入到最恰当的叶子节点后,当前的高斯混合模型树的结构和参数会随之更新,更新的节点包括插入新数据的叶子节点和与之相关的高层节点;聚类树结构的变化主要体现在高层节点是否需要分裂,参数的变化包括叶子节点中单个高斯成分的参数、高层节点中高斯混合模型的参数;更新聚类树结构时,通过计算高层节点对应的子节点的连通图个数来判断是否要分裂以及分裂的个数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410035056.0/2.html,转载请声明来源钻瓜专利网。