[发明专利]从文本序列中抽取实体的方法及装置有效
申请号: | 202111373041.1 | 申请日: | 2021-11-19 |
公开(公告)号: | CN113806496B | 公开(公告)日: | 2022-02-15 |
发明(设计)人: | 郑俊康;经小川;王潇茵;张家华;丁醒醒 | 申请(专利权)人: | 航天宏康智能科技(北京)有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/295;G06F40/30 |
代理公司: | 北京铭硕知识产权代理有限公司 11286 | 代理人: | 武慧南;张川绪 |
地址: | 100048*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 序列 抽取 实体 方法 装置 | ||
本申请提供一种从文本序列中抽取实体的方法及装置,所述方法包括:获取文本序列;基于文本序列,计算文本序列中的每个字符的第一实体位置概率;基于第一实体位置概率,确定概率均值;将每个第一实体位置概率与概率均值进行比较,确定候选字符,并将候选字符的位置标识添加到第一实体位置列表;基于第一实体位置列表,确定出现在预定参考位置处的字符,以从文本序列中抽取第一实体。根据本申请的从文本序列中抽取实体的方法及装置解决了实体识别准确性不高而导致提取语义信息存在较大偏差的问题,能够基于文本序列中每个字符的实体位置概率,统计整个文本序列的字符的实体位置概率均值,从而更准确地确定实体位置,以提高实体抽取的准确性。
技术领域
本申请涉及自然语言处理领域,更具体地讲,涉及一种从文本序列中抽取实体的方法及装置。
背景技术
随着互联网技术的飞速发展,对于自然语言的文本数据的处理需求数量激增,从文本数据中获取有价值的语义信息一直是研究的重点工作之一。
在文本数据的语义信息处理中,通常需要从文本数据中抽取出其所蕴含的实体和实体之间的关系信息,这里,在自然语言处理中,实体是指代某类具体事物的集合。在抽取过程中,通常需要确定文本数据中若干个实体的位置以及实体之间的关系,从而获取到语义信息。因此,实体抽取的准确性会影响到语义信息的处理结果的准确性。
在目前的语义信息处理方式中,可采用流水线方法,其首先对文本数据进行实体的识别,然后判断各个实体之间的关系类别。然而,在该方法中,实体识别相对独立,忽略了识别过程中的各个子任务之间的关联性,并且存在误差累计的情况,导致实体识别的准确性不高,使得提取的信息可能存在较大的偏差。
发明内容
鉴于现有的实体识别方法存在实体识别的准确性不高而导致提取的语义信息存在较大偏差的问题,本申请提供一种从文本序列中抽取实体的方法及装置。
根据本申请的第一方面,提供一种从文本序列中抽取实体的方法,所述方法包括:获取文本序列;基于所述文本序列,计算所述文本序列中的每个字符的第一实体位置概率,其中,所述第一实体位置概率指的是字符出现在第一实体中的预定参考位置的概率;基于所述第一实体位置概率,确定所述文本序列中所有字符的第一实体位置概率的概率均值;将每个字符的第一实体位置概率与所述概率均值进行比较,根据比较结果,确定出现在所述预定参考位置的候选字符,并将所述候选字符的位置标识添加到第一实体位置列表,其中,所述位置标识表示候选字符在所述文本序列中的位置;基于所述第一实体位置列表,从所述第一实体位置列表中的位置标识中确定出现在所述预定参考位置处的字符,以从所述文本序列中抽取包括所确定的字符的第一实体。
可选地,基于所述第一实体位置列表,从所述第一实体位置列表中的位置标识中确定出现在所述预定参考位置处的字符,以从所述文本序列中抽取包括所确定的字符的第一实体的步骤包括:分别按照所述文本序列的字符首尾方向和与所述首尾方向相反的方向,基于所述第一实体位置列表,将所述第一实体位置列表中的出现在每个所述预定参考位置的候选字符的位置标识组合成位置组合,以获得包括所述位置组合的位置组集合;基于所述位置组集合,从所述文本序列中抽取与所述位置组集合中的每个位置组合中的位置标识对应的字符,以用于确定所述第一实体。
可选地,所述预定参考位置包括首位置和尾位置,所述第一实体位置列表包括首位置列表和尾位置列表,所述首位置列表包括作为所述第一实体的首字符的候选字符的位置标识,所述尾位置列表包括作为所述第一实体的尾字符的候选字符的位置标识。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于航天宏康智能科技(北京)有限公司,未经航天宏康智能科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111373041.1/2.html,转载请声明来源钻瓜专利网。