[发明专利]迭代式实体关系抽取方法有效

专利信息
申请号: 201910546710.7 申请日: 2019-06-24
公开(公告)号: CN110275928B 公开(公告)日: 2022-11-22
发明(设计)人: 于兵;汪卫;陈雄;马柯;余荣贵 申请(专利权)人: 复旦大学;上海延华智能科技(集团)股份有限公司
主分类号: G06F16/28 分类号: G06F16/28;G06F16/36
代理公司: 上海正旦专利代理有限公司 31200 代理人: 张磊
地址: 200433 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 迭代式 实体 关系 抽取 方法
【说明书】:

发明涉及一种迭代式实体关系抽取方法,包括对迭代式实体关系抽取方法进行训练,以及使用训练好的模型对新的数据库中的实体关系进行抽取。本发明涉及到两个神经网络结构,一个是实体和关系抽取网络,另一个是异常实例发现网络,这两个网络结构是可以灵活改变的,在这网络中可以逐步添加一些新的数据特征,而不需要改变其他的结构。本发明人工确认非异常关系实例可以使用一种二分类分类器,这个过程不需要说明当前实例是否是某一种关系,只需要判断这个实例是否是一种关系就可以了,因此使用一个二分类的分类器可以避免人工干预。

技术领域

本发明涉及知识库创建过程中的实体和关系抽取方法,具体涉及一种迭代式实体关系抽取方法。

背景技术

在现有的技术中,主要采用神经网络中的监督学习算法或者远监督学习算法,在使用这些算法的过程中就需要提取语料的特征,这些特征也是通过自然语言处理工具产生。然后将这些特征输入到神经网络中。在训练数据有限的情况下,使用自然语言提取的特征也就不会丰富,并且在使用自然语言处理工具提取特征还会出现错误传播的现象。使用远监督学习算法也会出现错误的示例,而这些实例也就会加入到知识库中。

在很多关系抽取中,抽取过程往往都是一次性的,没有考虑到抽取的迭代过程,如果在监督学习中加入迭代过程,这样就不会出现训练集稀少的问题。抽取过程中不可避免地会出现一些错误的实体和关系加入到知识库中,所以需要一种异常数据检测,在完善知识库的过程中不断地将知识库更加精确。

知识库的构建对生产和生活中的诸多领域都会产生深远的影响。其中实体和关系的抽取是知识库创建过程中的最重要环节之一。在实体和关系抽取的过程中我们希望抽取的实体和关系覆盖更多的领域,并且在使用的过程中尽可能地满足不同领域的用户需求,除此之外还需要更加精确地满足要求。覆盖更多的领域就需要有大量的样本数据,并且不断地在日益增加的数据中不断发现新的实体和关系。本方法实现的就是通过迭代的方式不断发现数据中的实体和关系,并且逐步将知识库更加的细化和精确。

比如在自动问答系统中,提问的方式各种各样。有的提问的目标在最开始,有的是在末尾,还有的是中间。所以构建一个比较精确的知识库可以适应各种问答场景,因为问答中始终是围绕着一个中心实体或者实体对的关系展开的。并且知识库不能是一成不变的,还要处于不断的更新和迭代中,这样才能将新的知识纳入到知识库中,使用旧的知识不断发现新的知识,不断扩充知识库,这样才是一个比较完备和鲁棒的知识库系统。

发明内容

本发明的目的是提供一种迭代式实体关系抽取方法,用以解决目前存在的实体和关系抽取方法不能实现迭代化的过程和异常关系和实体检测的问题。本发明旨在通过将远监督抽取方法使用不断迭代的方式,在这个迭代的过程中不断发现语料中新的特征,不断地将新的特征加入到训练语料,通过不断迭代的方式在语料库中发现更多的实体和关系的过程。

本发明提出的迭代式实体关系抽取方法,具体步骤如下:

(1):对迭代式实体关系抽取方法进行训练

(1.1):从实体关系库中按时间倒序方式,分批次取出固定数量的实体关系集和与其对应的句子;将该句子编码为词向量的形式,将句子中的每个词语的词性、该词语与实体词之间的距离编码后连接到单词的词向量中,将编码后的结果输入到实体关系抽取模型中;所述实体关系抽取模型是一个可替换的神经网络模型,使用PCNN模型进行替代;在模型训练的过程中,根据输入的词向量信息、位置信息和词性信息可以提取句子中的语法语义特征;

(1.2):PCNN模型提取句子中语法语义特征、词性特征和距离特征,根据输入的语法语义特征、词性特征和距离特征,利用神经网络模型的卷积神经网络输出一个包含以上特征的特征向量,使用该特征向量用来表示当前句子;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学;上海延华智能科技(集团)股份有限公司,未经复旦大学;上海延华智能科技(集团)股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910546710.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code