[发明专利]一种基于共享近邻的约束谱聚类方法在审
申请号: | 201810342609.5 | 申请日: | 2018-04-17 |
公开(公告)号: | CN108596234A | 公开(公告)日: | 2018-09-28 |
发明(设计)人: | 丁世飞;王小玉 | 申请(专利权)人: | 中国矿业大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 221116 江苏省徐州市铜山*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 矩阵 约束谱聚类 数据集 聚类 算法 样本 共享 欧氏距离 相似矩阵 约束矩阵 尺度参数 矩阵构造 矩阵计算 聚类结果 距离矩阵 密度分布 敏感问题 主动查询 鲁棒性 约束项 准确率 出度 向量 查询 分配 | ||
1.一种基于共享近邻的约束谱聚类方法,其特征在于,利用共享近邻算法克服数据集密度分布不均缺点,然后基于约束谱聚类算法对数据进行初始聚类,再根据主动查询策略来确定下一步要查询的样本对,计算出约束矩阵,得出聚类结果,该方法具体包括:
步骤1:构造距离矩阵dij,根据样本对的距离矩阵,求出数据对之间的共享近邻矩阵SNN(xi,xj);
步骤2:根据公式计算相似矩阵wij;
步骤3:利用计算度矩阵;
步骤4:根据上述求出的相似矩阵wij和度矩阵di,利用公式计算数据集规范化拉普拉斯矩阵
步骤5:根据主动查询策略得出下一项要查询的约束项,并得出约束矩阵
Q;
步骤6:利用公式计算出它的规范化约束矩阵
步骤7:根据步骤4和步骤6求出的规范化拉普拉斯矩阵和规范化约束矩阵利用和u=D-1/2v得出聚类结果u。
2.根据权利要求1所述的一种基于共享近邻的约束谱聚类方法,其特征在于:利用共享近邻来降低数据集分布密度不均所带来的聚类误差,并利用约束谱聚类算法,得出准确的聚类结果,这两种方法的结合可以一方面提高聚类算法的鲁棒性,另一方面可以降低参数敏感所带来的误差,从而只需要通过较少的约束信息我们就能达到良好的聚类效果。
3.根据权利要求1所述的一种基于共享近邻的约束谱聚类方法,其特征在于:所述的数据集X={X1,X2,X3,……Xn}是一个n*d的矩阵,共享近邻中k的取值一般为15~20,尺度参数δiδj分别是点xi和点xj到离他们最近第k个邻居之间的欧氏距离,特殊情况根据实验情况调整。
4.根据权利要求1所述的方法,其特征在于:所述的初始化聚类是指利用带有共享近邻信息的约束谱聚类算法进行聚类,但由于原约束谱聚类算法在尺度参数上特别敏感,参数要靠人工通过经验选取,就会导致聚类不稳定,且原约束谱聚类算法在密度分布不均的数据集上聚类效果不好,权利1所述的一种基于共享近邻的约束谱聚类方法采用共享近邻和约束谱聚类算法相结合,可以避免上述提到的问题。
5.根据权利要求1所述的方法,其特征是,所述的步骤5中主动查询策略是根据目前已经计算出来的聚类分配向量和约束矩阵来决定要查询的下一项,我们用距离的期望值来衡量当前估计的成对约束关系与真实成对关系之间的误差,公式如下:
6.根据权利要求1所述的方法其特征是,所述的步骤5中主动查询策略中查询下一项的函数为:
7.一种实现上述任一权利要求所述的方法,其特征在于:共享近邻算法和约束谱聚类算法,首先通过将共享近邻信息加入原有谱聚类算法中,利用加入共享近邻信息的高斯核函数求得相似矩阵和拉普拉斯矩阵;其次,根据主动选择策略选取下一步要查询的约束项构造约束矩阵。根据约束矩阵和和拉普拉斯矩阵算出聚类分配向量,输出聚类结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国矿业大学,未经中国矿业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810342609.5/1.html,转载请声明来源钻瓜专利网。