[发明专利]一种基于注意力机制的实体关系联合抽取方法和系统有效
申请号: | 201910048837.6 | 申请日: | 2019-01-18 |
公开(公告)号: | CN109902145B | 公开(公告)日: | 2021-04-20 |
发明(设计)人: | 虎嵩林;周艳;黄龙涛;韩冀中 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/36;G06N3/08 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 邱晓锋 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 注意力 机制 实体 关系 联合 抽取 方法 系统 | ||
1.一种基于注意力机制的实体关系联合抽取方法,其特征在于,包括以下步骤:
将训练数据中标注的实体和关系的三元组,转化为每个词对应一个预定义类型的标签的形式;
将训练数据的句子中的每个词映射成对应的词向量,输入基于注意力机制的神经网络模型,并通过反向传播算法进行训练,得到标签预测模型;
将需进行实体关系抽取的句子输入训练完成的标签预测模型,预测出每个词对应的标签,根据标签和三元组中每个词的对应关系,得到句子中存在的实体关系三元组;
所述基于注意力机制的神经网络模型的训练过程包括:
1)将输入句子中的每个词映射成对应的词向量;
2)在编码层,把句子中每个词对应的词向量作为输入,采用双向长短记忆神经网络Bi-LSTM学习句子中每个词的上下文信息;
3)在注意力层,利用注意力机制学习对每个词的标签起关键作用的词表示,并将其和编码层学习到的上下文信息表示进行合并,得到每个词对应的有效向量表示dt;
4)在解码层,对于输入的第t个词,将有效向量表示dt作为输入,利用长短记忆网络的链式网络,计算每个标签的向量表示Tt;所述长短记忆网络把第t个词的标签的表示向量作为下一个词预测的输入之一,学习到序列标签之间的依赖关系;
5)根据得到的标签的向量表示进行计算,得到每个词的对应到各类标签的概率;
6)选取所有样本的最大似然函数作为模型的目标函数;
7)通过反向传播算法训练模型,更新模型中所有的参数,最终得到标签的预测模型。
2.根据权利要求1所述的方法,其特征在于,每个所述标签包含三类信息:词在实体中的位置,实体所在的三元组对应的关系类型,实体在三元组中的位置,即属于第一个还是第二个实体。
3.根据权利要求2所述的方法,其特征在于,所述词在实体中的位置按照BIES的模式进行表示;所述关系类型为预定义的关系类型中的一种;所述实体在三元组中的位置用1或者2来表示,其中1表示三元组中第一个实体,2表示三元组中第二个实体;用标签O表示词不属于任何三元组。
4.根据权利要求1所述的方法,其特征在于,通过爬取大量的非标注语料,训练得到具有语义信息的词向量表示,用于将输入所述基于注意力机制的神经网络模型的句子中的每个词映射成对应的词向量。
5.根据权利要求1所述的方法,其特征在于,步骤3)包括:
3-1)计算句子中的词和当前被预测词相关性的权重,计算公式为:
其中hj表示从编码层得到的第j个词的向量表示,hk表示从编码层得到的第k个词的向量表示,Tt-1表示第t-1个词的标签的向量表示,n表示句子的长度;αj,t代表句子中第j个词和被预测的第t个词的相关程度;
3-2)将αj,t和词对应的向量表示相乘并进行加权,得到标签相关词表示:
3-3)利用门控机制把词的上下文信息表示和标签相关词表示进行融合,得到每个词对应的有效向量表示dt。
6.根据权利要求5所述的方法,其特征在于,步骤3-3包括:
3-3-1)计算上下文信息表示和标签相关词表示各自占有的权重,计算公式为:
其中σ表示逻辑函数,表示权重矩阵,其中ht表示从编码层得到的第t个词的向量表示;
3-3-2)把计算出来的权重和这两类表示进行加权,得到包含词的上下文信息和关键词信息的表示向量,即每个词对应的有效向量表示:dt=gthat+(1-gt)ht。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910048837.6/1.html,转载请声明来源钻瓜专利网。