[发明专利]融合成对约束和规模约束的半监督聚类方法在审

申请号：	201810236079.6	申请日：	2018-03-21
公开（公告）号：	CN108446736A	公开（公告）日：	2018-08-24
发明（设计）人：	罗森林;王海州;潘丽敏;韩龙飞	申请（专利权）人：	北京理工大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	暂无信息	代理人：	暂无信息
地址：	100081 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	半监督聚类样本成对约束多目标高斯混合模型信息科学技术算法初始化标签数据聚类质心目标函数信息融合信息整合异常数据融合惩罚项初始化监督聚类质心加权噪声计算机更新
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种融合成对约束和规模约束的半监督聚类方法，属于计算机与信息科学技术领域。该方法包括：随机从少量样本标签数据选择样本对生成约束对，采用并查集方法扩展约束对；使用加权KKZ算法初始化聚类质心，避免选择噪声或异常数据作为初始化质心；更新高斯混合模型的目标函数，将不同监督信息作为不同参数的惩罚项，实现多目标监督信息整合。由于本发明提供的半监督聚类方法将多目标监督信息融合至半监督聚类，既提升了聚类的准确性，又避免了产生空类或仅包含少量样本的无效类别。

技术领域

本发明涉及一种半监督聚类方法，尤其是指融合成对约束和规模约束的半监督聚类方法，属于计算机与信息科学技术领域。

背景技术

聚类分析作为机器学习中无监督学习的重要研究领域之一，是将数据按照自身特点划分成不同的簇，使簇间数据尽可能不相似而簇内数据更相似，从数据中发现隐含的有用信息。聚类方法除了最常见的Kmeans算法，还包括高斯混合聚类、层次聚类和模糊聚类等。当数据样本点存在一定不确定性时，采用硬划分方式的Kmeans算法并不合适，即当各簇中的样本有重叠时，Kmeans则无法处理。相比之下，高斯混合聚类则给出样本点被分配到每个簇的概率，又称为软划分。高斯混合聚类是高斯混合模型在无监督学习上的重要应用。其中，高斯混合模型是单一高斯概率密度分布的扩展，就是用多个高斯概率密度函数逼近任意分布形式，其基本假设是任何数据可以分解为若干高斯分布。高斯混合模型假设数据是由若干高斯分布组成而不是其他分布的原因在于，根据中心极限定理，当高斯概率密度函数的个数k足够多，那么他们的组合会变得足够复杂，可以用来逼近任意连续的概率密度分布。同时，高斯函数具有良好的统计学特性和计算性能，所有高斯混合模型被广泛应用于聚类应用中。

假设多维变量x服从高斯分布，它的概率密度函数可以记为：

其中，d_x为样本x的特征维度，μ是高斯分布的期望，Σ是高斯分布的协方差矩阵。从几何空间上讲，单高斯分布在二维空间近似于椭圆，三维空间近似于椭球。在真实数据下，样本点并不一定满足高斯分布的特性。因此，需要引入高斯混合模型来逼近真实数据分布。高斯混合模型假设样本是由k个高斯分布组成，每个高斯分布具有不同的参数，称为高斯混合模型的一个成分或组件，因此，高斯混合模型的概率密度函数可以表示为：

其中，π_j为第j个高斯概率密度函数产生样本x的概率，且满足π_j≥0，

对于样本量为n的数据集X中的任意样本其中i＝1,…,n，假定它们是由高斯混合模型产生的，那么高斯混合模型的k个成分就分别代表高斯混合聚类的k个簇。通常可以利用极大似然估计来推断出高斯混合模型概率分布的参数π_j,μ_j,Σ_j。极大似然估计假设数据集中的样本间是相互独立的，其核心思想是寻找确定的分布形式下，生成数据集X概率最大的参数组合。因为样本间相互独立，所以它们的联合概率分布可表示为各边际分布的乘积，即产生数据集的概率实际上是称为似然函数。通常概率是小于1的实数，许多小数的乘积容易造成浮点数下溢，在参数估计过程中一般将似然函数通过对数变换，把乘积变成加和，得到对数似然函数，然后最大化对数似然函数求解未知参数的值。直接对高斯混合模型做极大似然估计往往是很复杂的，一般采用EM算法来获得高斯混合模型的极大似然估计。

半监督聚类与无监督学习类似，其优势在于自动从数据中找出其潜在类别。然而无监督式学习在学习过程中没有受到监督信息的约束，聚类结果不一定可以真实反映用户期望的类别。半监督聚类则可以在聚类过程中加入监督信息，根据用户的需要归纳和指导聚类过程，通过将监督信息转化为约束指导聚类过程，得到更能反映先验知识的聚类结果。

按照对先验知识的应用方式，半监督聚类一般可分为基于成对约束的半监督聚类、基于距离的半监督聚类和混合半监督聚类。针对约束信息或者约束目标的不同，半监督聚类又分为基于分配约束的半监督聚类和基于规模约束的半监督聚类方法。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京理工大学，未经北京理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810236079.6/2.html，转载请声明来源钻瓜专利网。

上一篇：一种基于差分进化优化近邻成分分析的特征选择方法
下一篇：用于识别对象的方法和装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]融合成对约束和规模约束的半监督聚类方法在审

专利文献下载