[发明专利]实体关系抽取方法在审

专利信息
申请号: 202211445145.3 申请日: 2022-11-18
公开(公告)号: CN115906848A 公开(公告)日: 2023-04-04
发明(设计)人: 李剑楠;周小雪;马骏;方言;李恒;梁广涛;曹妙霞 申请(专利权)人: 上海爱可生信息技术股份有限公司;上海千鸟信息科技有限公司
主分类号: G06F40/295 分类号: G06F40/295;G06F18/23;G06F18/22;G06F18/24
代理公司: 上海思捷知识产权代理有限公司 31295 代理人: 许静
地址: 201203 上海市浦东新区中国(上海)自由贸*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 实体 关系 抽取 方法
【说明书】:

发明提供了一种实体关系抽取方法,包括:依存句法分析,从句子中提取出实体对;对实体对进行关联关系添加,以得到第一三元组,对第一三元组进行DSNF匹配并按照设定条件对第一三元组进行筛选,以得到第二三元组;根据句子的上下文内容对实体对添加关系,以得到第三三元组;根据实体字典对实体对添加关系,以得到第四三元组;对第二三元组、第三三元组和第四三元组进行聚类,按照每个三元组之间的相似关系将所有三元组分为多个类。在本发明提供的实体关系抽取方法中,通过三种方法抽取实体的关系,可以使得实体抽取的关系丰富并且抽取关系的种类不单一。

技术领域

本发明涉及自然语言处理技术领域,尤其是涉及一种实体关系抽取方法。

背景技术

现有技术的关系抽取需要预定义关系类型,人工定义关系集合{R},如‘地点’、‘组织’等。在一些真实的场景下,人工定义的这一步将会非常困难。开放关系抽取是不限定关系类型的关系抽取方法,关系源自原文本。目前开放关系抽取主要分为两类方法。第一类是基于监督学习的方法,例如TextRunner和Reverb的方法,TextRunner主要特点是手工标注数据,缺点是标注数据较少。Reverb主要特点是融入了句法规则训练数据,对每条三元组进行置信度的评分。缺点是只有动词关系,会匹配错误的头尾实体。基于Reverb生成训练数据进行远程监督学习的方法OLLIE,虽解决了实体匹配的问题,但效率略差。第二类是基于句法模式,例如,DSNFs和ClausIE,DSNFs使用了7种句法模式,但缺点就是抽取的关系有限。ClausIE使用了复合句的关系抽取,自定义子句类型,但对于多元组的结果又很难去评估。

因此,现有技术的实体关系抽取方法存在中文领域中存在实体抽取的关系不够丰富并且抽取关系种类单一的问题。

发明内容

本发明的目的在于提供一种实体关系抽取方法,可以使得实体抽取的关系丰富并且抽取关系的种类不单一。

为了达到上述目的,本发明提供了一种实体关系抽取方法,包括:

依存句法分析,从句子中提取出实体对;

对所述实体对进行关联关系添加,以得到第一三元组,对所述第一三元组进行DSNF匹配并按照设定条件对所述第一三元组进行筛选,以得到第二三元组;

根据所述句子的上下文内容对所述实体对添加关系,以得到第三三元组;

根据实体字典对所述实体对添加关系,以得到第四三元组;以及

对所述第二三元组、第三三元组和第四三元组进行聚类,按照每个所述三元组之间的相似关系将所有三元组分为多个类。

可选的,在所述的实体关系抽取方法中,依存句法分析,从句子中提取出实体对的方法包括:

依存句法分析,从句子中提出多个实体;

将指向同一个人或物的实体合并为一个实体;以及

将任意两个实体组合形成实体对。

可选的,在所述的实体关系抽取方法中,所述关联关系包括:并列关系和因果关系。

可选的,在所述的实体关系抽取方法中,按照设定条件对所述第一三元组进行筛选的方法包括:

若从过短的句子提取出的实体对,则将所述实体对舍弃;

同一句子中的所述实体对的数量小于或等于3,且所述实体对的字符数量小于10,若不能同时满足,则将所述实体对舍弃;

若所述实体对中的第一个实体依赖于谓词,则所述第一个实体不能同时依赖于谓词之外的其他单词,否则将所述实体对舍弃;

所述实体对所在的句子中,第一个实体和第二个实体之间的距离小于或等于四个字符,否则将所述实体对舍弃;

所述实体对中,当一个实体是直接宾语,且依赖于VOB的谓语时,该实体为名词,否则将所述实体对舍弃;

当关系词中,谓语前面有多个状语短语时,所述谓语匹配最接近谓词的一个状语短语;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海爱可生信息技术股份有限公司;上海千鸟信息科技有限公司,未经上海爱可生信息技术股份有限公司;上海千鸟信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202211445145.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top