[发明专利]一种基于共享近邻的约束谱聚类方法在审

申请号：	201810342609.5	申请日：	2018-04-17
公开（公告）号：	CN108596234A	公开（公告）日：	2018-09-28
发明（设计）人：	丁世飞;王小玉	申请（专利权）人：	中国矿业大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	暂无信息	代理人：	暂无信息
地址：	221116 江苏省徐州市铜山***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	矩阵约束谱聚类数据集聚类算法样本共享欧氏距离相似矩阵约束矩阵尺度参数矩阵构造矩阵计算聚类结果距离矩阵密度分布敏感问题主动查询鲁棒性约束项准确率出度向量查询分配
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提出一种基于共享近邻的约束谱聚类方法，所要解决的问题是原约束谱聚类算法无法很好的处理密度分布不均的数据集。同时提高原算法在数据集上的聚类准确率。本发明包括以下步骤：1.计算样本对之间的欧氏距离，根据样本对的距离矩阵，求出数据对之间的共享近邻矩阵；2.根据样本对之间的欧氏距离和共享近邻矩阵计算相似矩阵；3.通过计算各行或各列的相似值之和，求出度矩阵；4.根据步骤2和步骤3求出的相似矩阵和度矩阵构造拉普拉斯矩阵；5.根据主动查询策略得出下一项要查询的约束项，并得出约束矩阵；6.由步骤4和步骤5算得的拉普拉斯矩阵和约束矩阵就可以算出我们的聚类分配向量，得出聚类结果；该方法不仅能够有效提高约束谱聚类算法的鲁棒性，很好地处理不同密度的数据集，并能有效的避免尺度参数敏感问题，具有很好的聚类效果。

技术领域

本发明一种基于共享近邻的约束谱聚类算法，可以在任意密度的数据集上进行聚类，涉及模式识别和机器学习领域。利用主动查询策略得到需要查询约束的下一项，用共享近邻改进相似矩阵，从而得到准确的聚类结果。

背景技术

聚类分析是非监督学习，是数据挖掘的一个重要研究方向，大体可以分为基于划分、基于层次、基于模型、基于密度和基于网格等5类聚类算法。传统的聚类算法，如K-means和模糊C均值算法(Fuzzy C-means，FCM)等大都建立在凸球形样本空间上，如果样本空间不为凸，算法就会陷入局部最优，他们不适用于任意形状的数据空间，但是在真实的应用中，数据经常分布于不规则形状。在此基础上提出了谱聚类算法。后来的研究发现，加入部分人工信息可以有效的提高聚类准确率，由此出现了约束谱聚类算法。

基于主动约束的谱聚类算法在2010年被提出，可以用于不同数据的聚类分析。主动约束谱聚类算法是利用主动选择策略和约束谱聚类算法相结合的算法。用主动选择策略得到下一步要查询的样本对；用约束谱聚类算法结合主动查询策略得出聚类结果。但是约束谱聚类算法在密度分布不均的数据集上聚类效果并不好，而且由于尺度参数敏感问题，使得聚类结果不够稳定。

发明内容

为了解决上述问题，本发明提出一种基于共享近邻的约束谱聚类方法。首先通过将共享近邻信息加入原有谱聚类算法中，利用加入共享近邻信息的高斯核函数求得相似矩阵和拉普拉斯矩阵；然后，根据主动选择策略选取下一步要查询的约束项构造约束矩阵。根据约束矩阵和和拉普拉斯矩阵算出聚类分配向量，输出聚类结果。该方法不仅能够有效提高约束谱聚类算法的鲁棒性，避免尺度敏感问题，同时能有效地处理密度分布不均的数据集，具有很好地聚类效果。

本发明是通过以下方案实现的：

本发明涉及一种基于共享近邻的约束谱聚类方法，以约束谱聚类算法作为基础，在聚类之前引入共享近邻构造相似矩阵，同时在聚类时利用主动查询策略得到下一步约束对，以提高聚类的准确率。

本发明具体步骤如下：

步骤1：构造距离矩阵d_ij，根据样本对的距离矩阵，求出数据对之间的共享近邻矩阵SNN(x_i,x_j)。

步骤2：根据公式计算相似矩阵w_ij。

步骤3：利用计算度矩阵。

步骤4：根据上述求出的相似矩阵w_ij和度矩阵d_i，利用公式计算数据集规范化拉普拉斯矩阵

步骤5：根据主动查询策略得出下一项要查询的约束项，并得出约束矩阵Q。

步骤6：利用公式计算出它的规范化约束矩阵

步骤7：根据步骤4和步骤6求出的规范化拉普拉斯矩阵和规范化约束矩阵利用和u＝D^-1/2v得出聚类结果u。

本发明具有如下优点及效果：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。