[发明专利]基于新型关系注意力机制的实体关系抽取方法及设备在审
申请号: | 202010774426.8 | 申请日: | 2020-08-04 |
公开(公告)号: | CN112084778A | 公开(公告)日: | 2020-12-15 |
发明(设计)人: | 尹帆;毛养勤;覃俊;李子茂;毛腾跃;刘晶;廖立婷 | 申请(专利权)人: | 中南民族大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30;G06N3/04 |
代理公司: | 武汉知产时代知识产权代理有限公司 42238 | 代理人: | 孔灿 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 新型 关系 注意力 机制 实体 抽取 方法 设备 | ||
本发明提供基于新型关系注意力机制的实体关系抽取方法,包括以下:采用PCNN模型提取句子的语义向量;根据句子包中每个句子的语义向量,采用NATT注意力机制,提取句子包的特征向量;将句子包的特征向量输入至sofmax分类器,得到句子包中每个句子的语义向量和关系向量之间关系的置信度。本发明提供的有益效果是:提高了关系向量表示的准确率。
技术领域
本发明涉及信息抽取技术领域,尤其涉及基于新型关系注意力机制的实体关系抽取方法。
背景技术
近年来,互联网信息的爆炸式增长给人们快速而精确地获取需要的信息带来了巨大的困难。信息抽取技术能够对文本进行深层的分析,从而为用户提供更准确的信息服务。关系抽取是信息抽取的主要任务之一,指对文本中所含实体对进行语义关系分类,在智能问答、知识库构建等领域扮演着重要的角色。
目前,实体关系抽取最常用的方法是有监督方式,虽然其抽取效果明显、准确率高,但该方法需要大量的人工标注语料,耗时耗力,限制了大规模的实体关系抽取。针对其语料的问题,Mintz等人尝试使用FreeBase知识库来代替手工标注语料,他们利用Freebase与自由文本对齐得到大量的标注训练语料,Mintz称这种监督方法为远程监督。其思想基于一种假设:如果两个实体之间存在知识库中的某种关系,那么含有这两个实体的句子或多或少都表达了这种关系。很明显这种假设存在不严谨的地方,引入了许多噪声标注数据。如何降噪成为了我们需要进一步解决的问题。
现有技术提出了分段PCNN网络来提取句子的语义向量,从关系矩阵中查询出标签所对应的关系向量,然后利用其与句子做相似性计算,相似性越高,则权重越高,反之,则越低。其PCNN网络结构分为输入层,卷积层,池化层。
另外还有一种基于深度学习的方法,该方法利用深度学习模型PCNN网络提取每个句子的语义向量,其次利用Freebase知识库中实体背景知识训练实体向量,最后利用实体相减得到关系向量,计算出每个句子对应这个关系的权重,如果句子表达了此关系,则权重越高,反之,则越低。
上述两种方法均利用关系向量与PCNN网络进行关系抽取,其得到的关系向量表示关系语义存在不准确的情况,例如:斯内普深情的看着莉莉。----恋人。两实体相减得不到恋人这个关系。因为恋人是“深情的”来体现的。。
发明内容
有鉴于此,本发明提供了基于新型关系注意力机制的实体关系抽取方法,包括以下:
S101:获取有标签数据;所述有标签数据具体为有标签的句子包;
S102:采用PCNN模型提取所述有标签的句子包中每个句子的语义向量;所述PCNN模型包括输入层、卷积层和池化层;
S103:根据所述有标签的句子包中每个句子的语义向量,采用NATT注意力机制,提取所述有标签的句子包的特征向量;
S104:将所述有标签的句子包的特征向量输入至sofmax分类器,得到所述有标签句子包中每个句子的语义向量和关系向量之间关系的置信度;所述关系向量具体为根据所述有标签的句子包的原始向量随机生成的初始化向量。
进一步地,步骤S101中,获取有标签数据,具体方式为:采用远程监督方法通过自动对齐远程知识库获取有标签数据集。
进一步地,步骤S102中,采用PCNN模型提取所述有标签的句子包中每个句子的语义向量,具体步骤为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南民族大学,未经中南民族大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010774426.8/2.html,转载请声明来源钻瓜专利网。