[发明专利]从文本序列中抽取实体的方法及装置有效
申请号: | 202111373041.1 | 申请日: | 2021-11-19 |
公开(公告)号: | CN113806496B | 公开(公告)日: | 2022-02-15 |
发明(设计)人: | 郑俊康;经小川;王潇茵;张家华;丁醒醒 | 申请(专利权)人: | 航天宏康智能科技(北京)有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/295;G06F40/30 |
代理公司: | 北京铭硕知识产权代理有限公司 11286 | 代理人: | 武慧南;张川绪 |
地址: | 100048*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 序列 抽取 实体 方法 装置 | ||
1.一种从文本序列中抽取实体的方法,其特征在于,所述方法包括:
获取文本序列;
基于所述文本序列,计算所述文本序列中的每个字符的第一实体位置概率,其中,所述第一实体位置概率指的是字符出现在第一实体中的预定参考位置的概率;
基于所述第一实体位置概率,确定所述文本序列中所有字符的第一实体位置概率的概率均值;
将每个字符的第一实体位置概率与所述概率均值进行比较,根据比较结果,确定出现在所述预定参考位置的候选字符,并将所述候选字符的位置标识添加到第一实体位置列表,其中,所述位置标识表示候选字符在所述文本序列中的位置;
基于所述第一实体位置列表,从所述第一实体位置列表中的位置标识中确定出现在所述预定参考位置处的字符,以从所述文本序列中抽取包括所确定的字符的第一实体,
其中,所述预定参考位置包括首位置和尾位置,所述第一实体位置列表包括首位置列表和尾位置列表,所述首位置列表包括作为所述第一实体的首字符的候选字符的位置标识,所述尾位置列表包括作为所述第一实体的尾字符的候选字符的位置标识。
2.根据权利要求1所述的方法,其特征在于,基于所述第一实体位置列表,从所述第一实体位置列表中的位置标识中确定出现在所述预定参考位置处的字符,以从所述文本序列中抽取包括所确定的字符的第一实体的步骤包括:
分别按照所述文本序列的字符首尾方向和与所述首尾方向相反的方向,基于所述第一实体位置列表,将所述第一实体位置列表中的出现在每个所述预定参考位置的候选字符的位置标识组合成位置组合,以获得包括所述位置组合的位置组集合;
基于所述位置组集合,从所述文本序列中抽取与所述位置组集合中的每个位置组合中的位置标识对应的字符,以用于确定所述第一实体。
3.根据权利要求1所述的方法,其特征在于,基于所述第一实体位置列表,从所述第一实体位置列表中的位置标识中确定出现在所述预定参考位置处的字符,以从所述文本序列中抽取包括所确定的字符的第一实体的步骤包括:
针对所述首位置列表中的每个位置标识,按照所述文本序列的首尾方向,确定在所述尾位置列表中,与所述首位置列表中的每个位置标识相邻的第一位置标识,并将所述首位置列表中的每个位置标识与对应的第一位置标识组合成第一位置对,以获得第一位置对集合,其中,所述第一位置对集合包括针对所述首位置列表中的每个位置标识的第一位置对;
针对所述尾位置列表中的每个位置标识,按照所述文本序列的与所述字符首尾方向相反的方向,确定在所述首位置列表中,与所述尾位置列表中的每个位置标识相邻的第二位置标识,并将所述尾位置列表中的每个位置标识与对应的第二位置标识组合成第二位置对,以获得第二位置对集合,其中,所述第二位置对集合包括针对所述尾位置列表中的每个位置标识的第二位置对;
确定所述第一位置对集合和所述第二位置对集合的并集,从所述文本序列中抽取与所述并集中的每个位置对对应的字符对以及在所述对应的字符对之间的字符,以确定所述第一实体。
4.根据权利要求1所述的方法,其特征在于,所述第一实体位置概率包括第一实体首位置概率和第一实体尾位置概率,所述概率均值包括首位置概率均值和尾位置概率均值,
其中,基于所述第一实体位置概率,确定所述文本序列中所有字符的第一实体位置概率的概率均值的步骤包括:
基于所述文本序列中所有字符的第一实体首位置概率,确定首位置概率均值;
基于所述文本序列中所有字符的第一实体尾位置概率,确定尾位置概率均值。
5.根据权利要求4所述的方法,其特征在于,将每个字符的第一实体位置概率与所述概率均值进行比较,根据比较结果,确定出现在所述预定参考位置的候选字符,并将所述候选字符的位置标识添加到第一实体位置列表的步骤包括:
将每个字符的第一实体首位置概率与所述首位置概率均值进行比较,根据比较结果,确定出现在所述首位置的首位置候选字符,并将所述首位置候选字符的位置标识添加到所述首位置列表;
将每个字符的第一实体尾位置概率与所述尾位置概率均值进行比较,根据比较结果,确定出现在所述尾位置的尾位置候选字符,并将所述尾位置候选字符的位置标识添加到所述尾位置列表。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于航天宏康智能科技(北京)有限公司,未经航天宏康智能科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111373041.1/1.html,转载请声明来源钻瓜专利网。