[发明专利]一种关注关联词的实体关系抽取方法在审
申请号: | 201910479528.4 | 申请日: | 2019-06-04 |
公开(公告)号: | CN110196978A | 公开(公告)日: | 2019-09-03 |
发明(设计)人: | 钟将;袁红阳;李青 | 申请(专利权)人: | 重庆大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/35 |
代理公司: | 重庆市前沿专利事务所(普通合伙) 50211 | 代理人: | 郭云 |
地址: | 400030 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体关系 特征向量 关联词 向量 抽取 词组特征 二元组合 文本句子 输出 句子 词语 文本 标签文本 关系分类 关系类型 句子级别 两两组合 权重向量 神经网络 文本分词 语义结构 语义特征 映射 权重 串联 标签 | ||
1.一种关注关联词的实体关系抽取方法,其特征在于,包括以下步骤:
S1:输入已标签文本和待测文本,进行文本分词,获取每个词语映射的对应的实值向量;
S2:将所有词语对应的实值向量两两组合,获取二元组合特征向量,计算二元组合特征向量与关系标签的权重向量,获取句子的二元词组特征;
S3:将实值向量输入到神经网络层中,获取文本的语义结构和特征向量表示;
S4:将步骤2输出的二元词组特征与步骤3输出的语义特征串联作为最终文本句子的表示,然后将最终文本句子的表示输入至句子级别的关注层,获得句子对于不同关系类型的权重,输出最后的关系分类结果。
2.根据权利要求1所述的关注关联词的实体关系抽取方法,其特征在于,所述步骤S1具体包括以下步骤:
S11:输入已标签文本和待测文本,文本分词,获取词向量;
S12:获取词语相对于句中特征实体对的相对位置的表示向量;
S13:拼接词向量和两个相对位置的表示向量,得到句子的实值向量。
3.根据权利要求1所述的关注关联词的实体关系抽取方法,其特征在于,所述步骤S2具体包括以下步骤:
S21:两个词语对应的实值向量组合获取二元组合特征向量,通过将所有词语对应的实值向量两两组合,得到一个特征矩阵X,即特征矩阵X维度为(n2,d),Xi为特征矩阵的第i个维度;
S22:训练词级注意力矩阵,并采用训练完成的词级注意力矩阵重点关注可能存在的影响关系分类的二元词组向量,计算二元组合特征向量与关系标签的相关性。
4.根据权利要求3所述的关注关联词的实体关系抽取方法,其特征在于,所述步骤S22具体包括以下步骤:
S221:定义词级注意力矩阵的维度,计算已标签文本的二元组合特征向量与各个关系标签的权重向量αi,然后通过比较权重向量与文本的真实值,采用机器学习的方式自动通过梯度下降的方式学习调节词级注意力矩阵的参数,得到训练完成的词级注意力矩阵;
S222:通过训练完成的词级注意力矩阵计算待测文本的二元组合特征向量与各个关系标签的权重向量,基于权重向量得到经过词级关注的最终句子表示;
权重向量的具体计算方法如式(1)和式(2)所示,文本的最终句子表示计算方法如式(3)所示:
gi=Xir, (1)
其中,r是本发明需要进行分类的关系标签在词级机器学习网络中的嵌入向量embedding向量,gi表示每个二元词组与关系标签的相关性;αi为权重向量,也为词级注意力矩阵,表示对于一个句子当中的所有二元词组与关系向量相似度的归一化值,即在一句文本中,不同的二元词组,根据与关系标签的相似性而所得到的关注权重不同;y为经过上述词级关注的最终句子表示。
5.根据权利要求4所述的关注关联词的实体关系抽取方法,其特征在于,所述步骤S3采用BGRU网络层获取文本的语义结构和特征向量表示,句子的语义特征记做h,第i个句子的语义特征记为hi,
6.根据权利要求5所述的关注关联词的实体关系抽取方法,其特征在于,所述步骤S4得到关系分类结果输出的具体过程如下:
第i个句子的向量表示为zi,其中然后再利用句子级别的注意力机制来充分关注具有相同实体对且具有相同实体关系的语义信息,得到最后的结果分类输出;其中,通过句子级别的注意力机制获取分类结果的计算公式如式(4)至式(8)所示:
ei=ziAr, (4)
o=Ws+b, (7)
其中,A为句子级别注意力的对角矩阵,d为本发明需要进行分类的关系标签在句子级学习网络中的嵌入向量embedding向量,ei表示句子与关系标签的相关性;k指的是文本包含的句子总数,βi是表示每个句子与标签相似度的权重;s指经过句子级别关注的文本表示;W表示维度转换网络层内所有关系标签的embedding矩阵,b表示预训练的偏置矩阵bias矩阵;nr表示关系类别数量,ok表示文本与第k个关系标签相关的关系概率值,or表示所有关系概率值里面数值最大的关系概率值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆大学,未经重庆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910479528.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种智能警情督导处理系统及方法
- 下一篇:基于分布式系统的意图识别方法及装置