[发明专利]一种基于深度神经网络和成对约束的聚类方法有效
申请号: | 201810765487.0 | 申请日: | 2018-07-12 |
公开(公告)号: | CN109086805B | 公开(公告)日: | 2020-07-28 |
发明(设计)人: | 黄嘉桥;王家兵 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 李斌 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 神经网络 成对 约束 方法 | ||
本发明公开了一种基于深度神经网络和成对约束的聚类方法,给定一个包含数据间成对约束的数据集;得到数据集样本间的差向量;构建一个自编码网络和一个深度神经网络;将数据集样本作为自编码网络的输入,输入的数据集样本作为自编码网络的输出训练网络,将自编码网络瓶颈处的输出作为深度神经网络的输入,成对约束作为正确标记训练网络;将训练过的自编码网络和深度神经网络结合到聚类算法上;使用聚类算法进行聚类任务。本发明结合了原始数据集中数据间的成对约束,通过自编码网络对输入数据进行降维操作和深度神经网络学习特征,并且提出了该网络模型的损失函数及其基于梯度下降的优化算法,有效提高了聚类算法的聚类精度。
技术领域
本发明涉及基于深度神经网络和成对约束的聚类方法和高维聚类技术领域,特别涉及一种基于数据间成对约束来进行聚类的方法。
背景技术
数据聚类也称为无监督学习,是将一组数据对象分为若干个聚类的有效方法。但是无监督学习无法知道每一个聚类具体代表什么,因为它聚类的是未标记的数据。随着网络信息化的不断加深,整个互联网的数据总量在不断增长,如何充分发掘并利用蕴含在数据下的有用信息,是近年来计算机科学领域的热点问题。高维聚类就是一个常见的问题,具体表现为:传统聚类算法对高维数据空间进行聚类时会遇到困难,受“维度灾难”的影响,许多在低维数据空间表现良好的聚类方法运用在高维空间上往往无法获得好的聚类效果。
在这种背景下,如何对高维度的数据进行聚类,就成为了需要深入探究的问题。当下对于解决高维度数据的聚类主要有三大类:(1)线性降维方法:PCA,CCA和NMF等;(2)线性核非线性降维方法:KDA,LLE等;(3)神经网络。由于整个互联网的数据总量在不断增长,使用神经网络来进行降维操作也是一种热门选择。但是目前使用神经网络来进行降维操作都是直接学习原始数据的特征,而忽略了原始数据间的成对约束。
由于现有使用神经网络进行高维度聚类的方法大多是直接学习原始数据的特征的缺点,即使有海量数据用于训练神经网络,聚类的精确度无法进一步提升。因此,找到一种更能代表聚类的特征,使用该特征来训练网络成为本领域一个亟待解决的问题。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种基于深度神经网络和成对约束的聚类方法,其能让网络学习一种更能代表聚类的特征,从而提高聚类的精度。
本发明的目的通过以下的技术方案实现:
一种基于深度神经网络和成对约束的聚类方法,包括以下步骤:
给定一个包含数据间成对约束的数据集;
对数据集进行预处理,得到数据集样本间的差向量;
构建一个自编码网络和一个深度神经网络;
将上述数据集样本的差向量作为自编码网络的输入,由于我们希望自编码网络可以重构出输入,我们同时使用输入的数据集样本的差向量作为自编码网络的输出,将自编码网络的中间输出作为深度神经网络的输入,成对约束作为正确标记;
将训练过的自编码网络和深度神经网络结合到聚类算法上;
使用聚类算法进行聚类任务。
进一步地,将上述数据集样本的差向量作为自编码网络的输入,输入的数据集样本的差向量作为自编码网络的输出,将自编码网络瓶颈处的输出作为深度神经网络的输入,成对约束作为正确标记的方法如下:构造一个自编码器,使用数据集样本的差向量作为输入,取自编码器的编码部分的输出EO,使用EO作为全连接神经网络的输入,在全连接神经网络的最后一层加上softmax层,预测结果与成对约束比较。其中softmax层是为了将输出转变成一个概率分布,选取最大概率的输出作为预测结果。而预测结果则是在同一类的概率或者不在同一类的概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810765487.0/2.html,转载请声明来源钻瓜专利网。