[发明专利]命名实体检测方法、装置、电子设备及可读存储介质在审
申请号: | 201910704579.2 | 申请日: | 2019-07-31 |
公开(公告)号: | CN110399616A | 公开(公告)日: | 2019-11-01 |
发明(设计)人: | 蔡世清;江建军;郑凯;段立新 | 申请(专利权)人: | 国信优易数据有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京超成律师事务所 11646 | 代理人: | 张栋栋 |
地址: | 100070 北京市丰台*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 命名实体 目标文本 上下文信息 向量 检测结果 检测 可读存储介质 电子设备 实体位置 上下文语境 编码模型 实体类型 输入识别 字符向量 申请 图谱 | ||
本申请涉及知识图谱技术领域,具体而言,涉及命名实体检测方法、装置、电子设备及可读存储介质。本申请实施例通过将目标文本中每个字符的字符向量输入训练好的编码模型,可以生成每个字符的上下文信息向量,由于上下文信息向量可以表征出对应字符在目标文本中的上下文语境,因此,将每个字符的上下文信息向量输入训练好的检测模型,可以提高确定目标文本的实体位置检测结果的准确性,并根据实体位置检测结果确定目标文本中的命名实体,将每个命名实体的上下文信息向量输入识别模型,可以确定目标文本的实体类型检测结果,这样,通过分别对命名实体的位置和类型进行检测,无需同时对命名实体的位置和类型进行判断,可以提高命名实体检测效率。
技术领域
本申请涉及知识图谱技术领域,具体而言,涉及命名实体检测方法、装置、电子设备及可读存储介质。
背景技术
命名实体是指人名、机构名、地名、物品名等以名称为标识的实体。命名实体检测是指将文本中包含的实体片段检测并识别出来,是知识抽取的第一步。
目前,命名实体检测技术通常是基于统计词典的方式,也即为每一种命名实体构造庞大的指称词典,基于所构造的指称词典进行命名实体检测,由于语境的变化可能会导致命名实体存在歧义,因此,基于指称词典进行命名实体检测的方式存在检测误差较大且检测效率低的问题。
发明内容
有鉴于此,本申请实施例的目的在于提供一种命名实体检测方法、装置、电子设备及可读存储介质,通过分别对命名实体的位置和类型进行检测,无需同时对命名实体的位置和类型进行判断,可以提高命名实体检测效率和准确率。本申请主要包括以下几个方面:
第一方面,本申请实施例提供了一种命名实体检测方法,所述命名实体检测方法包括:
获取目标文本中每个字符的字符向量;
将每个字符的字符向量输入至训练好的编码模型中,生成相应字符对应的上下文信息向量;
将各个字符对应的上下文信息向量输入至训练好的检测模型中,确定所述目标文本对应的实体位置检测结果;
根据所述目标文本对应的实体位置检测结果,确定所述目标文本中的命名实体;
将每个命名实体对应的上下文信息向量输入至训练好的识别模型中,确定所述目标文本对应的实体类型检测结果。
在一些实施例中,所述训练好的检测模型包括第一全连接层和条件随机场处理层;则确定所述目标文本对应的实体位置检测结果,包括:
将每个字符对应的上下文信息向量输入至所述第一全连接层,确定相应字符对应的第一维度变换向量;
将各个字符对应的第一维度变换向量输入至所述条件随机场处理层,确定所述目标文本对应的实体位置检测结果。
在一些实施例中,所述训练好的识别模型包括第二全连接层和池化层;则确定所述目标文本对应的实体类型检测结果,包括:
将每个命名实体对应的上下文信息向量输入至所述第二全连接层,确定相应命名实体对应的第二维度变换向量;
将每个命名实体对应的第二维度变换向量输入至所述池化层,确定相应命名实体对应的实体类型检测结果;
根据各个命名实体对应的实体类型检测结果,确定所述目标文本对应的实体类型检测结果。
在一些实施例中,按照以下步骤训练检测模型:
获取样本文本中的每个样本字符对应的样本字符向量,以及所述样本文本对应的实体位置标注信息;
根据所述样本字符向量,生成各个样本字符对应的样本上下文信息向量;
将各个样本字符对应的样本上下文信息向量输入至待训练的检测模型中,确定所述样本文本对应的实体位置检测结果;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国信优易数据有限公司,未经国信优易数据有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910704579.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:交易风险监控方法及装置
- 下一篇:审计数据处理方法、系统和可读存储介质