[发明专利]一种基于图卷积神经网络的属性图文献聚类方法在审
申请号: | 202110244762.6 | 申请日: | 2021-03-05 |
公开(公告)号: | CN113157957A | 公开(公告)日: | 2021-07-23 |
发明(设计)人: | 冀俊忠;梁烨;雷名龙 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F16/55 | 分类号: | G06F16/55;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 张慧 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 图卷 神经网络 属性 图文 献聚类 方法 | ||
本发明公开了一种基于图卷积神经网络的属性图文献聚类方法,属于图数据挖掘领域。具体为利用跨层链接的图卷积神经网络进行文献属性图特征学习;利用深层聚类估计模型从节点特征中估计最优的聚类簇数目;交替执行上述两个步骤完成训练;利用训练完成的模型得到待聚类的所有文献属性图节点的特征和聚类簇估计数目;以所述特征和聚类簇估计数目为输入,利用k均值聚类方法得到文献属性图聚类结果。训练跨层链接的图卷积神经网络时,采用基于节点成对相似度的自分离正则化项,可促进同簇节点的特征相似,不同簇节点的特征远离,从而有效提升图聚类的性能。聚类估计模块实现数据驱动的聚类簇数目估计,使整个系统更适用于无标签的真实数据环境。
技术领域
本发明属于图数据挖掘领域,具体地说,是涉及一种基于图卷积神经网络的属性图文献聚类方法。
背景技术
属性图聚类是图数据挖掘领域中的一项基本任务,其目的是根据节点属性和图结构信息将图中的节点划分为互不相交的簇。与只使用图结构信息的传统图聚类方法相比,属性图聚类更适用于节点具有丰富内容信息的场景。属性图聚类在社区发现,蛋白质功能模块检测、金融网络欺诈检测等领域有着广泛的现实应用。
目前已经提出了大量基于深度模型的图聚类工作。与浅层图聚类方法相比,深层方法更善于捕获图中的非线性和复杂的节点关系,有助于提高聚类性能。目前,大多数现有的深图聚类方法都采用两步式框架来完成聚类任务:特征学习步骤使用深度模型学习低维节点特征;聚类步骤执行传统的聚类方法完成图聚类任务,例如k均值和谱聚类等。特征学习步骤能否学习到属性图的真实特征对图聚类任务至关重要,早期的深度模型方法通常使用各种图自编码器(Graph autoencoders,GAE)来捕获图结构信息,但GAEs仅利用图的结构特征完成神经网络的训练,忽略了属性图中的节点属性信息,这限制了该类方法在属性图聚类任务中的性能。
近年来,属性图聚类方法通常利用图神经网络(Graph neural networks,GNNs)实现图节点的特征学习。GNNs通过加权聚合相邻节点属性信息,并迭代地更新节点特征,其前向传播模式融合了属性图的结构特征与节点属性,提高了数据利用率,并且可以自然地应用于属性图聚类任务,提高聚类性能。此外,图聚类的目标是检测具有密集簇内连接和稀疏簇间连接的局部子结构,而GNNs所学习的节点特征保留了图的局部相似性,这对于图聚类任务是有利的。但是,目前的方法存在以下两个限制:首先,特征学习过程缺少聚类的任务导向性,难以学习到对聚类友好的节点特征,特征空间内的节点分布易出现重叠问题,不利于进一步的聚类。其次,这类方法需要预先人为设置簇的数目,在真实应用中,网络数据规模大、复杂度高,聚类簇数目通常难以人为估计。另外,实际簇数与具体任务高度相关,最优的聚类数目应由节点特征本身确定。因此,设计一种基于图卷积神经网络的无参数属性图聚类方法对图数据挖掘有重要的意义。
文献聚类旨在将内容相似的文献划分为不同的组。现有的文献聚类方法采用基于层次、划分、密度等的聚类方法,其主要思想在于将特征相似的文献聚类为同一个簇。然而,目前的方法在聚类过程中仅考虑文献内容之间的相似性,而忽略了文献之间存在的引用关系。通常相互引用的文献也具有较高的相似度,文献的引用关系也能够为聚类提供有价值的信息。
发明内容
本发明针对上述现有技术存在的问题,提出了一种基于图卷积神经网络的属性图文献聚类方法,用于解决文献聚类过程中缺乏对文献引用关系的利用的问题,它可以应对真实图数据中不平衡的簇结构,从中学习到对聚类任务友好的节点特征,并根据节点特征对图数据的聚类簇数目做出估计,实现无参数的属性图聚类。
一个无向属性图可以表示为G=(V,E,X).其中V={v1,v2,…,vn}是节点集,E是边集。图的邻接矩阵可以表示为A,若节点vi和vj之间存在连接,则Aij=1,否则表示图G的节点属性矩阵,其中n表示节点的数量,m表示节点属性的维数。属性图聚类的目的在于将属性图G中的节点划分为互不相交的k个簇,在本发明中,k的数目由聚类估计模块根据节点特征估算。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110244762.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种面向生产实际的安全帽检测方法
- 下一篇:航油测漏系统及其测漏方法