[发明专利]一种基于图卷积神经网络的属性图文献聚类方法在审

申请号：	202110244762.6	申请日：	2021-03-05
公开（公告）号：	CN113157957A	公开（公告）日：	2021-07-23
发明（设计）人：	冀俊忠;梁烨;雷名龙	申请（专利权）人：	北京工业大学
主分类号：	G06F16/55	分类号：	G06F16/55;G06K9/62;G06N3/04;G06N3/08
代理公司：	北京思海天达知识产权代理有限公司 11203	代理人：	张慧
地址：	100124 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于图卷神经网络属性图文献聚类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于图卷积神经网络的属性图文献聚类方法，其特征在于：

步骤(1)、利用跨层链接的图卷积神经网络进行文献属性图特征学习，包括编、解码两阶段，得到所有图节点的特征z，用于完成在特征空间中图节点自然簇结构的分离；

步骤(2)、利用深层聚类估计模型从节点特征z中估计最优的聚类簇数目；

步骤(3)、交替执行上述两个步骤，直到达到最大迭代数目完成训练；

步骤(4)、利用训练完成的跨层链接的图卷积神经网络和深层聚类估计模型得到待聚类的所有文献属性图节点的特征和聚类簇估计数目；以所述特征和聚类簇估计数目为输入，利用k均值聚类方法得到文献属性图聚类结果。

2.根据权利要求1所述的一种基于图卷积神经网络的属性图文献聚类方法，其特征在于：步骤(1)进一步包括以下步骤，

步骤(1.1)属性图数据编码：对属性图数据进行编码操作，设文献属性图输入为G＝(A,X)，其中A为邻接矩阵，若文献v_i与v_j之间有引用关系，则A_ij＝1，否则A_ij＝0，X是文献属性矩阵，每一个行向量代表对一个文献的内容描述，其中，X中第i个行向量x_i代表对文献v_i内容的描述，图卷积神经网络从第l-1到第l层的传播规则如下：

其中N(v_i|A)表示在以邻接矩阵A表示的引文网络中，包括文献v_i以及与文献v_i有引用关系的文献，即邻居文献，i＝1,...,n，即共有n篇文献；W^(l)是第l层的参数矩阵。deg(v)表示节点v的度；当l＝1时，式(1)中即第一层图卷积神经网络聚合了邻居文献的原始特征，Relu(·)是非线性激活函数；

跨层链接的图卷积神经网络将每层图卷积的输出向量拼接起来：以表示图中节点v_i第l层图卷积的输出，图中节点v_i跨层链接的图卷积神经网络的编码结果d_i为每层图卷积神经网络对图中节点v_i的输出的拼接向量，表达如下：

将编码结果经过线性映射操作，输出图卷积神经网络学习到的图中节点v_i的节点特征z_i；

步骤(1.2)节点特征数据解码：

使用多层感知机实现属性矩阵的解码：

其中，表示节点特征z_i的解码输出，d_e表示编码向量z_i的维度，MLP_s表示s层的多层感知机，W_D是解码器的参数。

3.根据权利要求2所述的一种基于图卷积神经网络的属性图文献聚类方法，其特征在于：

X的构建方法为：(1)消除所有文献文档中的虚词；(2)消除所有文献文档中频率小于10的词汇；(3)以剩余词汇构建每篇文献的词向量特征，若第j个词汇在文献v_i中出现，则x_ij＝1,否则x_ij＝0。

4.根据权利要求1所述的一种基于图卷积神经网络的属性图文献聚类方法，其特征在于：跨层链接的图卷积神经网络的特征学习优化目标如下：

其中，

表示输入节点属性x_i经编码解码过程的输出，α为超参数，

q_ij表示节点v_i和v_j在特征空间中具有相似特征的概率，具体如下：

p_ij用于逼近另一个自由度更高的学生t分布来实现聚类友好的特征学习，具体如下：