[发明专利]用无向图嵌入知识图谱的文本信息抽取方法有效

专利信息
申请号: 202110642699.1 申请日: 2021-06-09
公开(公告)号: CN113312498B 公开(公告)日: 2022-06-17
发明(设计)人: 程长舸;黄征;周异;陈凯 申请(专利权)人: 上海交通大学
主分类号: G06F16/36 分类号: G06F16/36;G06F16/35;G06F16/335
代理公司: 上海交达专利事务所 31201 代理人: 王毓理;王锡麟
地址: 200240 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 嵌入 知识 图谱 文本 信息 抽取 方法
【说明书】:

一种用无向图嵌入知识图谱的文本信息抽取方法,基于待抽取字符串构建包含关联句子信息节点和知识信息节点的无向图,分别根据无向图及其节点编号生成位置编码、根据无向图及其邻接矩阵生成关联控制矩阵,将关联控制矩阵引入注意力机制中,即关联控制矩阵中显示关联的节点能够正常计算注意力、显示无关联的节点对当前节点的注意力值无限趋近于0,即表示二者不相关,将节点序列中各个节点的词嵌入向量和根据位置编码和图中关联关系得到的相对位置编码输入基于注意力机制的信息抽取模型,将模型输出接入CRF层进行分类输出,得到信息抽取结果。

技术领域

发明涉及的是一种信息处理领域的技术,具体是一种用无向图嵌入知识图谱的文本信 息抽取方法。

背景技术

信息是信息时代的主题,为了加强信息的获取效率,服务票据识别、产品信息自动录入 等业务,信息抽取技术近年来逐渐受到越来越多的关注,而深度学习的发展以及知识图谱的构 建与使用为信息抽取领域的发展提供了极大的助力。目前的深度学习信息抽取模型大多都是在 大规模通用数据上训练得到的,在针对需要很强知识背景的领域,如,进行信息抽取时,采用 通用数据训练的深度学习信息抽取模型往往不能起到很好的效果,针对此问题通常采用的方案 有两个,一种方案是采用该特定领域的数据来进行训练,得到对应的预训练语言模型来专门服 务该领域的信息抽取工作,该方案的缺点是领域内训练样本不足时不能起到很好的训练效果, 且每次需要扩展领域内的文本时需要将其作为训练数据重新进行训练,可扩展性不强,资源利 用效率不高;第二种方案是利用知识图谱,在预训练语言模型的选择上可以选择通用的预训练 语言模型,节省了大量的计算资源,每次只需要在处理输入时将知识图谱中的知识信息嵌入到 训练样本中即可起到将特定领域知识信息引入信息抽取模型的效果,具有很强的可扩展性。

发明内容

本发明针对现有技术存在的上述不足,提出一种用无向图嵌入知识图谱的文本信息抽取 方法,通过引入无向图得到邻接矩阵来建模实体之间的关系,通过邻接矩阵计算得到关联控制 矩阵,并构建注意力控制机制,控制知识信息在信息抽取模型当中影响的范围,在用知识信息 辅助加强信息抽取效果的前提下,使信息抽取模型尽可能少地被知识噪声所影响。

本发明是通过以下技术方案实现的:

本发明涉及一种用无向图嵌入知识图谱的文本信息抽取方法,基于待抽取字符串构建包 含关联句子信息节点和知识信息节点的无向图,分别根据无向图及其节点编号生成位置编码、 根据无向图及其邻接矩阵生成关联控制矩阵,将关联控制矩阵引入注意力机制中,即关联控制 矩阵中显示关联的节点能够正常计算注意力、显示无关联的节点对当前节点的注意力值无限趋 近于0,即表示二者不相关,将节点序列中各个节点的词嵌入向量和根据位置编码和图中关联 关系得到的相对位置编码输入基于注意力机制的信息抽取模型,将模型输出接入CRF层进行分 类输出,得到信息抽取结果。

所述的无向图,以待抽取字符串平铺为序列作为无向图的主干,通过不断插入知识图谱 中的知识信息完善无向图中的关联信息,具体步骤包括:待抽取字符串以序列的形式输入信息 抽取模型,待抽取字符串中的节点记为句子信息节点,而不断插入的知识图谱中的知识信息对 应的节点记为知识信息节点,通过区分句子信息节点和知识信息节点使得句子信息节点始终受 到关注,而知识信息节点只被特定范围内字符串节点所关注,最终得到一个由两类节点构成的 嵌入了知识信息的无向图以及一个表示各节点之间连接关系的邻接矩阵。

所述的关联控制矩阵,根据无向图中距离为1的邻接矩阵M计算得到距离为2的可达 矩阵N,通过知识图谱三元组的性质限定句子信息节点所能关联到的知识信息节点到该句子信 息节点的距离最多只能为2,因此可以通过邻接矩阵M和可达矩阵N相加得到任意一个句子信 息节点所能关联到的知识信息节点,再加上句子信息节点之间两两相关联,M+N即可得到句子 的关联控制矩阵。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110642699.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top