[发明专利]从文本序列中抽取实体的方法及装置有效

专利信息
申请号: 202111373041.1 申请日: 2021-11-19
公开(公告)号: CN113806496B 公开(公告)日: 2022-02-15
发明(设计)人: 郑俊康;经小川;王潇茵;张家华;丁醒醒 申请(专利权)人: 航天宏康智能科技(北京)有限公司
主分类号: G06F16/33 分类号: G06F16/33;G06F40/295;G06F40/30
代理公司: 北京铭硕知识产权代理有限公司 11286 代理人: 武慧南;张川绪
地址: 100048*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文本 序列 抽取 实体 方法 装置
【说明书】:

本申请提供一种从文本序列中抽取实体的方法及装置,所述方法包括:获取文本序列;基于文本序列,计算文本序列中的每个字符的第一实体位置概率;基于第一实体位置概率,确定概率均值;将每个第一实体位置概率与概率均值进行比较,确定候选字符,并将候选字符的位置标识添加到第一实体位置列表;基于第一实体位置列表,确定出现在预定参考位置处的字符,以从文本序列中抽取第一实体。根据本申请的从文本序列中抽取实体的方法及装置解决了实体识别准确性不高而导致提取语义信息存在较大偏差的问题,能够基于文本序列中每个字符的实体位置概率,统计整个文本序列的字符的实体位置概率均值,从而更准确地确定实体位置,以提高实体抽取的准确性。

技术领域

本申请涉及自然语言处理领域,更具体地讲,涉及一种从文本序列中抽取实体的方法及装置。

背景技术

随着互联网技术的飞速发展,对于自然语言的文本数据的处理需求数量激增,从文本数据中获取有价值的语义信息一直是研究的重点工作之一。

在文本数据的语义信息处理中,通常需要从文本数据中抽取出其所蕴含的实体和实体之间的关系信息,这里,在自然语言处理中,实体是指代某类具体事物的集合。在抽取过程中,通常需要确定文本数据中若干个实体的位置以及实体之间的关系,从而获取到语义信息。因此,实体抽取的准确性会影响到语义信息的处理结果的准确性。

在目前的语义信息处理方式中,可采用流水线方法,其首先对文本数据进行实体的识别,然后判断各个实体之间的关系类别。然而,在该方法中,实体识别相对独立,忽略了识别过程中的各个子任务之间的关联性,并且存在误差累计的情况,导致实体识别的准确性不高,使得提取的信息可能存在较大的偏差。

发明内容

鉴于现有的实体识别方法存在实体识别的准确性不高而导致提取的语义信息存在较大偏差的问题,本申请提供一种从文本序列中抽取实体的方法及装置。

根据本申请的第一方面,提供一种从文本序列中抽取实体的方法,所述方法包括:获取文本序列;基于所述文本序列,计算所述文本序列中的每个字符的第一实体位置概率,其中,所述第一实体位置概率指的是字符出现在第一实体中的预定参考位置的概率;基于所述第一实体位置概率,确定所述文本序列中所有字符的第一实体位置概率的概率均值;将每个字符的第一实体位置概率与所述概率均值进行比较,根据比较结果,确定出现在所述预定参考位置的候选字符,并将所述候选字符的位置标识添加到第一实体位置列表,其中,所述位置标识表示候选字符在所述文本序列中的位置;基于所述第一实体位置列表,从所述第一实体位置列表中的位置标识中确定出现在所述预定参考位置处的字符,以从所述文本序列中抽取包括所确定的字符的第一实体。

可选地,基于所述第一实体位置列表,从所述第一实体位置列表中的位置标识中确定出现在所述预定参考位置处的字符,以从所述文本序列中抽取包括所确定的字符的第一实体的步骤包括:分别按照所述文本序列的字符首尾方向和与所述首尾方向相反的方向,基于所述第一实体位置列表,将所述第一实体位置列表中的出现在每个所述预定参考位置的候选字符的位置标识组合成位置组合,以获得包括所述位置组合的位置组集合;基于所述位置组集合,从所述文本序列中抽取与所述位置组集合中的每个位置组合中的位置标识对应的字符,以用于确定所述第一实体。

可选地,所述预定参考位置包括首位置和尾位置,所述第一实体位置列表包括首位置列表和尾位置列表,所述首位置列表包括作为所述第一实体的首字符的候选字符的位置标识,所述尾位置列表包括作为所述第一实体的尾字符的候选字符的位置标识。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于航天宏康智能科技(北京)有限公司,未经航天宏康智能科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111373041.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top