[发明专利]一种基于超度量距离矩阵的半监督层次聚类方法在审
申请号: | 201410764758.2 | 申请日: | 2014-12-12 |
公开(公告)号: | CN104391988A | 公开(公告)日: | 2015-03-04 |
发明(设计)人: | 徐建;李涛;周文强;张宏;许福;李千目 | 申请(专利权)人: | 南京理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京理工大学专利中心 32203 | 代理人: | 朱显国 |
地址: | 210094 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 度量 距离 矩阵 监督 层次 方法 | ||
技术领域
本发明属于数据挖掘中的聚类技术,特别是一种通过优化技术实现的基于超度量距离矩阵的半监督层次聚类方法。
背景技术
将物理或抽象对象的集合分成相似的对象类的过程称为聚类。聚类问题出现在了许多学科中并且得到了广泛应用。基本上,聚类的目的就是将给定样本分到相应的簇,使得同一个簇的样本彼此相似、不同簇的样本彼此不同。基于簇产生的方式,聚类方法可以分为两类:划分聚类和层次聚类。划分聚类一般将数据集分解成一些不相交的簇,且就一些预先定义的目标函数而言,这种分解通常是最优的。层次聚类通过自底向上(凝聚)或自顶向下(分裂)的方法将数据点分组到层次树状框架中。典型的自底向上方法初始时将每个数据点作为一个独立的簇,然后将相似的簇组合在一起,从而建立更大的簇,直到整个数据集最终成为一个簇。自顶向下的方法初始时将所有数据点放在一个簇中,然后不断地分裂最大的簇。许多研究成果都报道过算法级上的层次聚类过程的改进以及对于层次聚类的理解。
近年来,半监督聚类(即基于知识约束的聚类)已经作为传统聚类范型的重要变体出现。给定数据表示,现有的半监督聚类方法多利用背景知识来学习距离/相异性度量,从而修正评估聚类的客观标准,并改进优化过程。
近期的半监督聚类研究存在两方面局限性。第一,绝大多数现有的半监督聚类算法都是为划分聚类设计的,几乎没有报道出半监督的层次聚类的研究工作。与划分聚类结果易于使用向量、聚类指标或优化连接矩阵表示不同,层次聚类结果更加复杂典型地表示成树状图或树。此外,层次聚类方法没有全局目标函数。层次聚类的这些性质使得半监督的层次聚类问题更具挑战性。第二,约束的类型。现有的半监督聚类方法都关注于实例级必须链接和无法链接约束形式的背景信息的使用。一个必须链接(ML)约束迫使两个实例必须放在同一个簇里,而无法链接(CL)约束迫使两个实例必须不放在相同的簇里。然而ML约束和CL约束都不适用于层次聚类,因为对象链接在不同的层次框架级别。
整合背景知识到聚类过程中的方法得到了广泛的研究。许多研究者研究了实例级背景信息的使用,例如将实力级背景信息用于研究距离/相异性度量、修正客观标准、提升优化程序的成对必须链接约束和无法链接约束。其他类型的知识提示(如,簇的大小、数据点的部分标签以及用户提供的外部原型/代表)也已经被用于聚类过程中。然而,绝大多数现有的半监督聚类算法都是为划分聚类设计的,几乎没有报道出半监督的层次聚类的研究工作。我们注意到,近期Zhao和Bade等人的研究是关于用顺序约束和部分已知层次框架完成层次聚类的。H.Zhao和Z.Qi在《排序约束下的分层凝聚聚类》(WKDD,2010,pp.195-199)中提出了两种基本算法:无约束的标准凝聚层次聚类(HAC)和基于约束的HAC(HACoc)。HAC算法开始时将每个实例作为一个单独的组,然后将相似的组组合在一起,从而形成更大的组,最终形成一个组。
HAC算法在簇对象中是很简单的,它能用类似的方法找出不同形状的簇,但HAC也存在着一些缺点:(1)HAC有很高的时间复杂性,例如,对于质心点算法(优先队列法),其时间复杂性为O(N2logN);(2)用谱系图获得簇的有效性是有限的。簇的有效性主要用来决定在大型数据量中最优簇的数目。很多有效性方法对谱系图的低层显示出转移模式,这就会导致评估不出不精确的最优簇数。HACoc算法是对HAC算法的改进。它可以处理障碍和联锁并且通过结合侧面信息提高聚类问题的效率和准确性。然而,与他们的研究不同的是,本发明中的半监督层次聚类框架是基于超度量树状图距离的。超度量是特殊的树状度量,将树状度量拟合成给定集合上(非)相似性的成对对象数据的问题已经得到了广泛研究。其中,所有输入数据集的元素都是底层树的叶子并且所有叶子到根的距离都相同。超度量相当于数据聚类的层次结构。给定成对对象的相异性D,寻找最佳超度量du的问题,使得||D-du||p的最小值是一个NP难题。
发明内容
为了解决现有技术存在的问题,本发明基于超度量树状图距离的半监督层次聚类构架为研究背景,采用基于优化的方式,提供一种基于超度量距离矩阵的半监督层次聚类方法,用于提高半监督层次聚类问题的效率和准确性。
一种基于超度量距离矩阵的半监督层次聚类方法,包括以下步骤:
步骤1,将C,E投影到不等式约束的闭凸集,其中为一个m*1向量,用于表示n*n对称相异性矩阵D;C为一个m*r相异性矩阵,r为相对约束的个数;E为一个m*m单位矩阵;m=n*(n-1/2)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410764758.2/2.html,转载请声明来源钻瓜专利网。