[发明专利]一种融合文本属性的异质图表示学习方法在审
申请号: | 202211217839.1 | 申请日: | 2022-09-30 |
公开(公告)号: | CN115659234A | 公开(公告)日: | 2023-01-31 |
发明(设计)人: | 李超;王振;闫页宇;赵中英;李香菊;苏令涛;段华;曾庆田 | 申请(专利权)人: | 山东科技大学 |
主分类号: | G06F18/241 | 分类号: | G06F18/241;G06V10/82;G06N3/0464;G06N3/08 |
代理公司: | 青岛智地领创专利代理有限公司 37252 | 代理人: | 种艳丽 |
地址: | 266590 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融合 文本 属性 图表 学习方法 | ||
1.一种融合文本属性的异质图表示学习方法,其特征在于,具体包括如下步骤:
步骤1、获取数据集节点文本数据T,对文本数据进行预训练,利用已有节点文本属性进行基于文本编码策略的文本特征表示,得到文本表示的特征向量XT,将其表示为numpy矩阵的格式并保存起来,根据数据集中的节点关系构建异质图,得到节点之间的邻接矩阵A,并将保存的特征向量XT作为具有文本属性节点的属性融入到异质图中;
步骤2、通过邻接矩阵A找到缺失属性节点邻域中具有文本属性的节点,对其文本属性采用均值聚合以及经过全连接网络进行节点特征变换的方法实现节点缺失属性的补全,得到完备的节点属性矩阵XS;
步骤3、将补全属性的完备的异质图的邻接矩阵A以及完备的节点属性矩阵XS输入到已有图神经网络模型,通过节点分类任务端到端的训练生成最佳的节点表示向量Z。
2.根据权利要求1所述融合文本属性的异质图表示学习方法,其特征在于,所述步骤1的具体过程如下:
步骤1.1、获取所需数据,构建数据集,采用爬虫算法爬取当前数据集中的内容作为节点的文本数据T=(W1,W2…Wn),W1,W2…Wn表示文本T中的词汇;
步骤1.2、分别将文本数据集中的各节点按照之间的关系构建节点间的邻接矩阵A,邻接矩阵A是一个节点数目*节点数目的方阵,方阵中的每一个元素代表节点之间的边关系,若节点之间有关系则对应位置为1,反之为0,进而构建出邻接矩阵结构的异质图;
步骤1.3、将爬取到的文本数据T进行文本的预处理,包括去除停用词以及将英文大写转化为小写;
步骤1.4、将预处理后的文本数据T输入编码器,基于机器翻译任务预训练的Transformer模型对节点文本属性进行编码,输出编码后的表示向量,编码器由6个相同的层堆叠组成;每层有两个子层,一个子层是多头的自注意力机制,另一个子层是前馈网络层,在两个子层之间使用残差连接,然后进行层归一化,每个子层的输出是LayerNorm(x+Sublayer(x)),其中Sublayer(x)是每一层的功能函数;x表示文本特征;
步骤1.5、将编码器的输出及文本的其它语言形式输入解码器,通过机器翻译任务预训练得到文本的表示向量XT=g(W1,W2…Wn);解码器也是由6个相同的层堆叠而成;除了编码器中的两个子层之外,解码器插入了第三个子层,该层对编码器的输出执行掩码的多头注意力机制;其中,g(·)是文本向量化编码方法Transformer;XT是一个384维的向量,将其表示为numpy格式的有文本属性的节点数目*384的矩阵,并保存起来,矩阵的每一行表示一个节点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东科技大学,未经山东科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211217839.1/1.html,转载请声明来源钻瓜专利网。