[发明专利]一种基于注意力机制的实体关系联合抽取方法和系统有效
申请号: | 201910048837.6 | 申请日: | 2019-01-18 |
公开(公告)号: | CN109902145B | 公开(公告)日: | 2021-04-20 |
发明(设计)人: | 虎嵩林;周艳;黄龙涛;韩冀中 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/36;G06N3/08 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 邱晓锋 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 注意力 机制 实体 关系 联合 抽取 方法 系统 | ||
本发明涉及一种基于注意力机制的实体关系联合抽取方法和系统。该方法的步骤包括:将训练数据中标注的实体和关系的三元组,转化为每个词对应一个预定义类型的标签的形式;将训练数据的句子中的每个词映射成对应的词向量,输入基于注意力机制的神经网络模型,并通过反向传播算法进行训练,得到标签预测模型;将需进行实体关系抽取的句子输入训练完成的标签预测模型,预测出每个词对应的标签,根据标签和三元组中每个词的对应关系,得到句子中存在的实体关系三元组。该系统包括预处理模块、模型训练模块和结果处理模块。本发明通过更有效的利用句子中的关键信息,提升了关系实体联合抽取的性能,具有良好的实用性。
技术领域
本发明涉及深度学习与自然语言处理技术,具体涉及一种基于注意力机制的实体关系联合抽取方法和系统。
背景技术
近年来,互联网信息技术高速发展,新闻、社交等网站每天有海量的新数据产生出来。这些数据中包含着各种各样的内容,其中有很多十分有价值的信息,这些信息对人们的生活起着至关重要的作用。为了抽取并有效使用这些有价值的信息,提出了知识图谱的概念。在知识图谱中把海量数据中的人名、地名等专用名词表示为实体,并且将任意两个实体之间的联系表示为关系。这样海量的数据即被表示为实体和关系的三元组(实体1,关系,实体2)。虽然现有的知识图谱已经包含数亿计的数据,但是网络上的信息每天不断增加,知识图谱中的信息也需要随之进行完善。
为了自动化的对知识图谱进行完善,人们进行了多方面的技术研究,实体关系抽取技术就是其中一种。实体关系抽取主要任务是识别出文本中的实体并确定实体之间存在的语义关系。利用实体关系抽取可以把非结构化的文本转化为结构化的文本,帮助人们更快速便捷的找到所需信息。
目前,实体关系抽取根据抽取方式分为两种类型:流水线式和联合抽取方式。流水线式的实体关系抽取需要先进行实体识别任务,然后根据识别出来的实体,对任意两个实体之间的关系进行分类。这种方式可能没有考虑实体和关系之间的联系,并且实体识别结果的正确与否会直接影响到关系分类的结果。联合抽取方式可以充分利用实体和关系之间的联系,能够取得更好的抽取效果。近期提出的基于序列标注的方式进行实体关系联合抽取可以更好的利用实体和关系的相互关联。虽然这类方法采用了神经网络进行标签序列的预测,但是并未对句子的词,对当前被预测词的重要程度进行区分,这样也就无法更好的利用有关联词的信息同时忽略无关词的信息。
发明内容
针对上述技术问题,本发明提出一种基于注意力机制的神经网络结构,来充分利用整个输入句子中的关键信息,提高实体关系抽取的性能。
为了解决上述技术问题,本发明的技术方案如下:
一种基于注意力机制的实体关系联合抽取方法,包括如下步骤:
将训练数据中标注的实体和关系的三元组,转化为每个词对应一个预定义类型的标签的形式;
将训练数据的句子中的每个词映射成对应的词向量,输入基于注意力机制的神经网络模型,并通过反向传播算法进行训练,得到标签预测模型;
将需进行实体关系抽取的句子输入训练完成的标签预测模型,预测出每个词对应的标签,根据标签和三元组中每个词的对应关系,得到句子中存在的实体关系三元组。
进一步地,每个所述标签包含三类信息:词在实体中的位置,实体所在的三元组对应的关系类型,实体在三元组中的位置,即属于第一个还是第二个实体。
进一步地,所述词在实体中的位置按照BIES的模式进行表示;所述关系类型为预定义的关系类型中的一种;所述实体在三元组中的位置用1或者2来表示,其中1表示三元组中第一个实体,2表示三元组中第二个实体;用标签O表示词不属于任何三元组。
进一步地,通过爬取大量的非标注语料,训练得到具有语义信息的词向量表示,用于将输入所述基于注意力机制的神经网络模型的句子中的每个词映射成对应的词向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910048837.6/2.html,转载请声明来源钻瓜专利网。