[发明专利]实体识别方法、装置、计算机设备及计算机可读存储介质在审
申请号: | 202010740626.1 | 申请日: | 2020-07-28 |
公开(公告)号: | CN111859972A | 公开(公告)日: | 2020-10-30 |
发明(设计)人: | 顾大中;张圣 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F16/33 |
代理公司: | 深圳市赛恩倍吉知识产权代理有限公司 44334 | 代理人: | 迟珊珊;何春兰 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体 识别 方法 装置 计算机 设备 可读 存储 介质 | ||
1.一种实体识别方法,其特征在于,所述实体识别方法包括:
获取英文文本;
对所述英文文本进行分词,得到多个第一词语;
计算所述多个第一词语的第一位置;
对所述多个第一词语进行词根转化,得到与所述多个第一词语一一对应的多个第二词语;
将所述多个第二词语组合成目标英文文本;
基于所述目标英文文本计算所述多个第二词语的第二位置;
生成所述多个第一词语的第一位置与所述多个第二词语的第二位置的映射关系;
根据所述目标英文文本和所述映射关系识别所述英文文本中的目标实体。
2.如权利要求1所述的实体识别方法,其特征在于,所述计算所述多个第一词语的第一位置包括:
依所述英文文本的字符顺序生成所述英文文本中每个字符的序号;
对于每个第一词语,在所述英文文本中确定所述第一词语的对应词语;
将所述对应词语的首字符的序号和所述对应词语的尾字符的序号确定为所述第一词语的第一位置。
3.如权利要求1所述的实体识别方法,其特征在于,所述对所述多个第一词语进行词根转化包括:
对所述多个第一词语进行大小写转化;
对所述大小写转化后的第一词语进行词根转化,得到与所述第一词语对应的第二词语。
4.如权利要求3所述的实体识别方法,其特征在于,所述对所述多个第一词语进行大小写转化包括:
对于每个第一词语,判断所述第一词语的首字符是否为大写字符;
当所述第一词语的首字符是大写字符时,判断所述第一词语中是否存在小写字符;
当所述第一词语中存在小写字符时,将所述第一词语中的大写字符转化为小写字符,得到大小写转化后的第一词语。
5.如权利要求1所述的实体识别方法,其特征在于,所述基于所述目标英文文本计算所述多个第二词语的第二位置包括:
根据所述英文文本中的第一个第一词语的第一位置计算词间空白字符数量;
获取每个第二词语的字符长度;
根据所述词间空白字符数量和所述目标英文文本中的第一个第二词语的字符长度,计算所述第一个第二词语的第二位置;
从所述目标英文文本中的第二个第二词语起,依次确定当前第二词语,根据所述词间空白字符数量和所述当前第二词语的前一个第二词语的第二位置计算所述当前第二词语的第二位置。
6.如权利要求1所述的实体识别方法,其特征在于,所述生成所述多个第一词语的第一位置与所述多个第二词语的第二位置的映射关系包括:
对于每个第二词语,从所述多个第一词语中获取与所述第二词语对应的目标第一词语;
从所述第二词语的第二位置中查找所述第二词语的首字符的序号和所述第二词语的尾字符的序号,从所述目标第一词语的第一位置中查找所述目标第一词语的首字符的序号和所述目标第一词语的尾字符的序号;
关联存储所述第二词语的首字符的序号和所述目标第一词语的首字符的序号,关联存储所述第二词语的尾字符的序号和所述目标第一词语的尾字符的序号。
7.如权利要求1所述的实体识别方法,其特征在于,所述根据所述目标英文文本和所述映射关系识别所述英文文本中的目标实体包括:
对所述目标英文文本进行实体识别,以从所述多个第二词语中确定第三词语;
基于所述映射关系根据所述第三词语的第二位置查找第一位置,将查找到的第一位置确定为实体位置;
根据所述实体位置从所述英文文本中识别出目标实体。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010740626.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种净化沼液的阶梯式微藻生物膜反应器
- 下一篇:一种高可靠性超导片式薄膜开关