[发明专利]实体关系的联合抽取方法和联合抽取装置有效
申请号: | 202111096807.6 | 申请日: | 2021-09-18 |
公开(公告)号: | CN113553854B | 公开(公告)日: | 2021-12-10 |
发明(设计)人: | 经小川;刘萱;杜婉茹;王潇茵;李瑞群 | 申请(专利权)人: | 航天宏康智能科技(北京)有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295 |
代理公司: | 北京铭硕知识产权代理有限公司 11286 | 代理人: | 王兆赓;刘奕晴 |
地址: | 100048*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体 关系 联合 抽取 方法 装置 | ||
公开实体关系的联合抽取方法和联合抽取装置,所述联合抽取方法包括:获取文本数据;基于预设模型,获取所述文本数据的第一特征序列,其中,所述第一特征序列包括多个第一特征向量,所述文本数据的每个字符对应于至少一个第一特征向量,并且每个第一特征向量包括多个第一特征元素;基于所述第一特征序列,将每个第一特征向量映射为互斥二元交叉标记,并将所有互斥二元交叉标记组合为互斥二元交叉标记集合;基于所述互斥二元交叉标记集合,对所述文本数据的实体关系进行联合抽取。该联合抽取方法不仅降低了关系抽取的传播误差,还能够有效地解决重叠实体关系问题。
技术领域
本公开总体说来涉及自然语言处理领域,更具体地讲,涉及一种实体关系的联合抽取方法和联合抽取装置。
背景技术
自然语言处理(Natural Language Processing,NLP)是计算机科学与人工智能领域中的一个重要方向。对于自然语言处理,其中一项基础研究是信息抽取(InformationExtraction,IE)。信息抽取是从自然语言文本中针对实体、关系和事件等多种类型的信息进行抽取并形成结构化数据的过程,其最基本的工作是命名实体识别,而核心在于对实体关系的抽取,即关系抽取(Relation Extraction,RE)。
实体关系通常形式化为一个关系三元组T,由两个实体E1和E2以及它们之间的关系Rs组成:T = E1, Rs, E2 ,例如北京, 首都, 中国。而关系抽取的目标则是从非结构化自然语言文本中抽取出特定类型的实体以及实体对之间的关系,是知识图谱构建等下游任务的基础和数据源。
在早期研究中,关系抽取通常采用流水线方法,即首先使用命名实体识别模块进行实体识别,然后使用关系分类模块对每个实体对进行关系分类。然而,无论是采用流水线方法还是与其类似的分段模型,在初期阶段产生的误差均无法在后续阶段得到修正,即广泛存在传播误差。为了解决这一问题,近期研究针对实体识别和关系分类进行联合学习,通过联合抽取方法同时提取并利用实体和关系之间的关联信息,但是,这种方法的难点在于,自然语言文本中广泛存在重叠实体关系问题。
重叠实体关系问题主要分为两大类:实体对重叠(Entity Pair Overlap ,EPO)和单实体重叠(Single Entity Overlap ,SEO)。重叠实体关系问题是指多个三元组在一个句子中共享一个或两个实体的情况,例如,句子“我出生在中国的首都北京”中包含三个关系三元组:北京, 首都, 中国,我, 出生地, 北京以及我, 出生地, 中国,其中北京,首都, 中国和我, 出生地, 北京共享实体“北京”,我, 出生地, 北京和我, 出生地, 中国共享实体“我”。然而,现有的联合抽取方法不能有效解决重叠实体关系问题,存在无法提取出所有共享实体的关系三元组的情况。
发明内容
本公开提供一种实体关系的联合抽取方法和联合抽取装置,从而在降低传播误差的同时解决重叠实体关系问题。
在一个总的方面,提供一种实体关系的联合抽取方法,所述联合抽取方法包括:获取文本数据;基于预设模型,获取所述文本数据的第一特征序列,其中,所述第一特征序列包括多个第一特征向量,所述文本数据的每个字符对应于至少一个第一特征向量,并且每个第一特征向量包括多个第一特征元素;基于所述第一特征序列,将每个第一特征向量映射为互斥二元交叉标记,并将所有互斥二元交叉标记组合为互斥二元交叉标记集合;基于所述互斥二元交叉标记集合,对所述文本数据的实体关系进行联合抽取。
可选地,每个第一特征向量包括的第一特征元素的第二数量基于所述预设模型中预定义的谓词的第一数量来确定。
可选地,基于所述第一特征序列,将每个第一特征向量映射为互斥二元交叉标记的步骤包括:针对任意一个第一特征向量,将该第一特征向量的每个第一特征元素和第一预设阈值进行比较;当所述第一特征元素大于所述第一预设阈值,将所述第一特征元素重新赋值为1;当所述第一特征元素小于或等于所述第一预设阈值,将所述第一特征元素重新赋值为0;基于重新赋值后的所述第一特征元素,将该第一特征向量映射为互斥二元交叉标记。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于航天宏康智能科技(北京)有限公司,未经航天宏康智能科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111096807.6/2.html,转载请声明来源钻瓜专利网。