[发明专利]实体识别方法及装置在审

申请号：	202110282485.8	申请日：	2021-03-16
公开（公告）号：	CN113065353A	公开（公告）日：	2021-07-02
发明（设计）人：	刘文强	申请（专利权）人：	北京金堤征信服务有限公司
主分类号：	G06F40/295	分类号：	G06F40/295;G06F40/30;G06K9/62;G06N3/02;G06F16/33
代理公司：	北京工信联合知识产权代理有限公司 11266	代理人：	刘爱丽
地址：	100086 北京市海淀区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	实体识别方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开的实施例提供了实体识别方法及装置，该方法包括：基于预设文本语料，构建实体字典，实体字典包括第一实体字典和第二实体字典；根据第一实体字典和第二实体字典训练实体识别模型，基于训练文本语料通过预设算法对实体识别模型进行校正；在接收到新的文本语料时，基于校正后的实体识别模型对新的文本语料中的实体进行识别。本公开技术方案可以大幅提高实体识别的准确率。

技术领域

本公开涉及计算机技术领域，特别涉及实体识别方法及装置、电子设备和计算机可读存储介质。

背景技术

随着互联网的发展，各个领域中每天都会产生大量不同形式的互联网数据，如何准确、高效地挖掘出互联网数据中的重要信息，以提升该领域中的服务效率是一个关键问题。进一步的，在信息挖掘中，实体关系提取是其中一项核心任务。目前，常用的实体关系抽取方法包括基于规则的实体关系抽取方法、基于机器学习的实体关系抽取方法。

其中，基于规则的实体关系抽取方法重点在于规则的制定，而规则的制定强依赖于人为经验，这就导致在人为经验不足时，无法制定出合理有效的规则，进而导致基于规则所抽取到的实体不够全面，不够准确；基于机器学习的实体关系抽取方法的准确性和召回率对标注语料的依赖性很高，且需要较强的人工干预，而语料标注耗时耗力，这就导致基于机器学习的实体关系抽取方法的整体开发周期很长，且需要耗费较高的人力物力，时效性和泛化能力差。

发明内容

本公开的目的在于提供实体识别方法及装置、电子设备和计算机可读存储介质，提高了实体识别的召回率和准确率。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的第一方面，提供实体识别方法，包括：

基于预设文本语料，构建实体字典，所述实体字典包括第一实体字典和第二实体字典；

根据所述第一实体字典和第二实体字典训练实体识别模型，基于训练文本语料通过预设算法对所述实体识别模型进行校正；

在接收到新的文本语料时，基于校正后的实体识别模型对所述新的文本语料中的实体进行识别。

在本公开的示例性实施例中，所述根据所述第一实体字典和第二实体字典训练实体识别模型，基于训练文本语料，通过预设算法对所述实体识别模型进行校正，包括：

查询所述训练文本语料中是否有与所述第一实体字典中的实体或第二实体字典中的实体相匹配的待确定实体；

对所述训练文本语料中待确定实体打实体内链；

若所述待确定实体为出现在所述第一实体字典中的实体，则不对所述实体识别模型进行校正；

若所述待确定实体为出现在所述第二实体字典中的实体且所述待确定实体已打实体内链，则基于语义窗口对所述待确定实体所在的文本语料进行分段；