[发明专利]一种基于集成学习的关系抽取方法及系统有效
申请号: | 201911171322.1 | 申请日: | 2019-11-26 |
公开(公告)号: | CN111125434B | 公开(公告)日: | 2023-06-27 |
发明(设计)人: | 孙新;姜景虎;蔡琪;侯超旭;盖晨;尚煜茗 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F16/75 | 分类号: | G06F16/75;G06F40/289;G06F40/30;G06F18/214;G06N3/0464;G06N20/20 |
代理公司: | 北京京万通知识产权代理有限公司 11440 | 代理人: | 许天易 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 集成 学习 关系 抽取 方法 系统 | ||
本发明涉及自然语言处理和深度学习技术领域,特别涉及一种处理远程监督关系抽取中重复实体方法及系统。本发明的主要技术方案包括:将语料根据实体对组成句包,确定含重复实体语句中的目标实体位置;构建包含语义和位置信息的词向量;通过多角度卷积神经网络,构建句向量;通过动态路由机制,构建句包级别的向量以及对句包分类。本发明提供的关系抽取方法及系统定位到并能够有效处理现有远程监督关系抽取方法及系统没有提及的重复实体导致的注意力偏差问题。
技术领域
本发明涉及自然语言处理和深度学习技术领域,特别涉及一种关系抽取中的方法及系统。
背景技术
一般意义上,信息抽取被定义为从自然语言文本中抽取出特定的实时信息,其三个重要子任务是实体抽取、关系抽取和事件抽取,被广泛应用在知识图谱构建、问答系统等领域。关系抽取是信息抽取的关键环节,主要任务是确定实体之间的语义关系。在现有的技术中,主要采用神经网络中的监督学习算法或者远程监督学习算法,将关系抽取任务当作分类任务。
当前主流的关系抽取模型几乎都引入了多示例学习方法。多示例学习是弱监督学习的一个方法,用于训练分类器的示例是没有类别标注的,但是示例构成的包是有类别标注的,最终的目的是给出对新的包的类别预测。这种方式的好处是很大程度上遏制数据噪声对模型参数的影响。
卷积神经网络作为特征提取器在各个领域中都非常常用,能够很好地捕获到语料的局部信息。另外,通常会对卷积神经网络结构进行改造,引进多种卷积核和池化方法,得到包含多粒度局部隐含信息的特征表达。
胶囊网络(CapsNet)是由Hinton等人于2017年提出的网络,胶囊的设计基于人造神经元的设计,但将其扩展到了向量形式,使其具有更强大的表示能力。胶囊网络使用囊间动态路由算法训练,与其他深度学习神经网络相比,训练起来较慢。
值得注意的是,在远程监督方法得到的结构化数据集中,具有重复实体现象,即一个语句可能含有多个同一实体。大多现有关系抽取模型的前提是一个语句只含有一对实体,提取含有重复实体语句的特征时,很可能会丢失关键的语义信息,导致注意力偏差问题,从而影响模型效果。
发明内容
本发明的目的是克服现有技术在远程监督关系抽取中重复实体导致的注意力偏差问题。一方面,通过确定真正包含语义关系的实体对,修正位置信息,另一方面,使用多角度卷积神经网络提取多粒度的文本特征表达,以及使用多示例学习方法和动态路由机制获取句包的特征表达,减弱注意力偏差影响。最后使用全连接层和softmax层组成的分类器对句包分类,得到句包的关系。
为实现上述目的,第一方面,本发明提供一种基于集成学习的关系抽取方法,所述方法包括:
S1、接收文本数据和实体对,分句,确定语句的目标实体对,构建由包含该实体对的语句组成的句包;
S2、对语句中单词构建词向量,为语句构建词向量序列;
S3、通过不包含最后一层softmax层的多角度卷积神经网络,从词向量序列中提取语句特征,构建句向量;
S4、通过动态路由机制,使用句向量“投票”方法构建句包向量;
S5、通过由全连接层和softmax层构成的分类器,确定句包所属的关系。
进一步的,所述步骤S1中,确定语句的目标实体对的步骤包括:
S11、把语句中出现的实体对中的两类实体和其相应的位置信息分别放入集合E1,E2中;
S12、将距离最近的实体对(ei,ej)放入集合C中,其中,ei∈E1,ej∈E2;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911171322.1/2.html,转载请声明来源钻瓜专利网。