[发明专利]实体识别方法、装置、计算机设备及计算机可读存储介质在审
申请号: | 202010740626.1 | 申请日: | 2020-07-28 |
公开(公告)号: | CN111859972A | 公开(公告)日: | 2020-10-30 |
发明(设计)人: | 顾大中;张圣 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F16/33 |
代理公司: | 深圳市赛恩倍吉知识产权代理有限公司 44334 | 代理人: | 迟珊珊;何春兰 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体 识别 方法 装置 计算机 设备 可读 存储 介质 | ||
本发明涉及人工智能技术领域,提供实体识别方法、装置、计算机设备及计算机可读存储介质,该实体识别方法,包括:获取英文文本;对英文文本进行分词,得到多个第一词语;计算多个第一词语的第一位置;对多个第一词语进行词根转化,得到与多个第一词语一一对应的多个第二词语;将多个第二词语组合成目标英文文本;基于目标英文文本计算多个第二词语的第二位置;生成多个第一词语的第一位置与多个第二词语的第二位置的映射关系;根据所述目标英文文本和所述映射关系识别所述英文文本中的目标实体。本发明提升了根据预处理得到的目标英文文本和映射关系进行实体识别的准确率。
技术领域
本发明涉及实体识别技术领域,具体涉及一种实体识别方法、装置、计算机设备及计算机可读存储介质。
背景技术
通常,在对英文文本进行实体识别时,需要对英文文本进行预处理。
在对英文文本进行预处理,得到目标英文文本的过程中,目标英文文本中的词语的位置相对于英文文本中的词语的位置发生改变。导致对目标英文文本进行实体识别时,根据识别出的实体位置不能得到对应的实体,降低了根据预处理后的目标英文文本进行实体识别的准确性。
发明内容
鉴于以上内容,有必要提出一种实体识别方法、装置、计算机设备及计算机可读存储介质,其可以对英文文本进行预处理,提升了根据预处理得到的目标英文文本和所述映射关系进行实体识别的准确率。
本申请的第一方面提供一种实体识别方法,所述实体识别方法包括:
获取英文文本;
对所述英文文本进行分词,得到多个第一词语;
计算所述多个第一词语的第一位置;
对所述多个第一词语进行词根转化,得到与所述多个第一词语一一对应的多个第二词语;
将所述多个第二词语组合成目标英文文本;
基于所述目标英文文本计算所述多个第二词语的第二位置;
生成所述多个第一词语的第一位置与所述多个第二词语的第二位置的映射关系;
根据所述目标英文文本和所述映射关系识别所述英文文本中的目标实体。
另一种可能的实现方式中,所述计算所述多个第一词语的第一位置包括:
依所述英文文本的字符顺序生成所述英文文本中每个字符的序号;
对于每个第一词语,在所述英文文本中确定所述第一词语的对应词语;
将所述对应词语的首字符的序号和所述对应词语的尾字符的序号确定为所述第一词语的第一位置。
另一种可能的实现方式中,所述对所述多个第一词语进行词根转化包括:
对所述多个第一词语进行大小写转化;
对所述大小写转化后的第一词语进行词根转化,得到与所述第一词语对应的第二词语。
另一种可能的实现方式中,所述对所述多个第一词语进行大小写转化包括:
对于每个第一词语,判断所述第一词语的首字符是否为大写字符;
当所述第一词语的首字符是大写字符时,判断所述第一词语中是否存在小写字符;
当所述第一词语中存在小写字符时,将所述第一词语中的大写字符转化为小写字符,得到大小写转化后的第一词语。
另一种可能的实现方式中,所述基于所述目标英文文本计算所述多个第二词语的第二位置包括:
根据所述英文文本中的第一个第一词语的第一位置计算词间空白字符数量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010740626.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种净化沼液的阶梯式微藻生物膜反应器
- 下一篇:一种高可靠性超导片式薄膜开关