[发明专利]关系抽取模型的建立方法以及关系抽取方法有效
申请号: | 202011309475.0 | 申请日: | 2020-11-20 |
公开(公告)号: | CN112364166B | 公开(公告)日: | 2022-02-01 |
发明(设计)人: | 周玉 | 申请(专利权)人: | 北京中科凡语科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/295;G06N3/04;G06N3/08 |
代理公司: | 北京庚致知识产权代理事务所(特殊普通合伙) 11807 | 代理人: | 韩德凯;李晓辉 |
地址: | 100190 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 关系 抽取 模型 建立 方法 以及 | ||
本公开提供了关系抽取模型建立方法,包括:对标注出实体、实体类别及关系类别的文本样本进行预处理;抽取出标注后的文本样本中包含相同实体对的多个语句作为一个语句包,获取文本样本的语句包组;基于文本样本的实体有向无环图以及标注出的文本样本的实体,获取每个实体的候选实体类别以及候选实体类别的父类别;基于文本样本的关系有向无环图以及每个实体的候选实体类别及父类别,获取实体对的候选关系以及候选关系的父关系;使用TextCNN获取多层多分类损失;使用分层注意力网络获取分层注意力损失;基于分层多分类损失、分层注意力损失构建关系抽取模型,以标注出的关系类别作为训练目标对关系抽取模型进行训练。
技术领域
本公开涉及一种关系抽取模型的建立方法以及关系抽取方法,属于自然语言处理、信息抽取技术领域。
背景技术
随着通信技术和互联网技术的飞速发展,每天在网络上产生的数据爆炸式增长,使用字符串索引和检索数据时正在遇到越来越多的噪声,如何使用语义定义数据,从海量数据中高效地获取有价值的信息和知识逐渐成为日益迫切的需求,将数据自动结构化,去伪存真,将数据中的信息转化为经验证的知识是自然语言处理领域的一个难题。
在这个背景下,以语义形式定义、以知识方式存储的知识图谱应运而生。现存的很多大规模知识图谱例如Wikipedia和Freebase等,利用三元组作为语义单元结构化地存储了现实世界的知识。其中三元组的获取就依赖于信息抽取技术,一般分为实体抽取、关系抽取或联合抽取。
三元组由两个实体和一个关系组成,实体是一类指代各种具体事物的专有名词,例如人名和地名,关系则指两种实体对的内在联系,例如“中国的首都是北京”。实体在待抽取的原文中可以找到实体指称项,而关系一般较为抽象,很多时候在原文中没有显式地表明,例如“我喜欢读鲁迅的《朝花夕拾》”,暗含了“鲁迅是《朝花夕拾》的作者”这样的关系。目前,关系抽取作为三元组抽取的重要组成部分得到了广泛的应用,是从自然语言文本中按照语义结构化数据的重要方法。
现有的关系抽取都基于有监督分类的方式,需要大量的人工标注数据,高质量标注数据往往成为关系抽取的瓶颈。针对这个问题,基于远程监督的关系抽取方法提出可以通过对纯文本和知识库之间进行交互来自动产生训练数据和抽取结果。但是,这种远程监督产生的训练数据存在一个严重的问题,就是产生的训练数据噪音非常严重,因为并不是所有的包含两个实体的句子都会反映他们两者之间的关系。传统方法往往构建大量的特征工程,尽可能减少错标和漏标,或者使用一些神经网络结构从单一的实体方面或关系方面来解决问题。
发明内容
为了解决上述技术问题中的至少一个,本公开提供一种关系抽取模型的建立方法、关系抽取方法、关系抽取模型的建立装置、关系抽取装置、电子设备以及可读存储介质。
本公开的关系抽取模型的建立方法、关系抽取方法、关系抽取模型的建立装置、关系抽取装置、电子设备以及可读存储介质通过以下技术方案实现。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中科凡语科技有限公司,未经北京中科凡语科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011309475.0/2.html,转载请声明来源钻瓜专利网。