[发明专利]实体样本获取方法、装置及电子设备在审
申请号: | 202010550976.1 | 申请日: | 2020-06-16 |
公开(公告)号: | CN111881681A | 公开(公告)日: | 2020-11-03 |
发明(设计)人: | 温丽红;马璐;刘亮;罗星池;李超 | 申请(专利权)人: | 北京三快在线科技有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06K9/62 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 任亚娟 |
地址: | 100083 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体 样本 获取 方法 装置 电子设备 | ||
本公开的实施例提供了一种实体样本获取方法、装置及电子设备。所述方法包括:将待识别语句输入至预训练实体识别模型,得到所述待识别语句对应的实体预测结果;从实体数据词典中获取所述待识别语句对应的实体分类结果;基于所述实体预测结果和所述实体分类结果,确定所述待识别语句对应的校正候选结果;根据所述校正候选结果和所述实体预测结果之间的概率比,确定所述校正候选结果中的目标校正候选结果,并将所述目标校正候选结果确定为目标实体样本。本公开的实施例可以减少人力投入,节省了人力资源。
技术领域
本公开的实施例涉及互联网技术领域,尤其涉及一种实体样本获取方法、装置及电子设备。
背景技术
命名实体识别(NER,Named Entity Recognition)是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名称、专有名词等。
在搜索领域,实体识别是识别查询语句中的实体,包括实体词以及实体类型。这些实体类型一部分与公司业务强相关,比如品类,一部分为通用类型体系,比如地址等。
实体识别可抽象为序列标注问题,训练模型需要进行数据标注。然而实体标注比较耗时耗力,大批量标注样本难获取,如何自动化地生成较高质量的标注样本是亟需解决的难题。
目前常用的实体样本获取方法主要是基于领域专业人员采用人工构造的规则、模板生成实体标注数据。而人工构造的方式对人员的专业性要求较高,且需要投入较大人力,
发明内容
本公开的实施例提供一种实体样本获取方法、装置及电子设备,用以自动生成实体标注样本,节省了人力的投入。
根据本公开的实施例的第一方面,提供了一种实体样本获取方法,包括:
将待识别语句输入至预训练实体识别模型,得到所述待识别语句对应的实体预测结果;
从实体数据词典中获取所述待识别语句对应的实体分类结果;
基于所述实体预测结果和所述实体分类结果,确定所述待识别语句对应的校正候选结果;
根据所述校正候选结果和所述实体预测结果之间的概率比,确定所述校正候选结果中的目标校正候选结果,并将所述目标校正候选结果确定为目标实体样本。
可选地,在所述将待识别语句输入至预训练实体识别模型,得到所述待识别语句对应的实体预测结果之前,还包括:
获取第一数量的实体标注样本;
采用所述第一数量的实体标注样本对所述初始实体识别模型进行训练,得到所述预训练实体识别模型。
可选地,所述基于所述实体预测结果和所述实体分类结果,确定所述待识别语句对应的校正候选结果,包括:
在所述实体预测结果为所述预训练实体识别模型切分的单个切分实体词的预测结果时,将所述实体分类结果作为所述校正候选结果。
可选地,所述基于所述实体预测结果和所述实体分类结果,确定所述待识别语句对应的校正候选结果,包括:
在所述实体预测结果为所述预训练实体识别模型切分的n个切分实体词的预测结果时,根据所述实体分类结果和所述n个切分实体词中n-1个切分实体词对应的实体预测结果,生成所述待识别语句对应的校正候选结果;
其中,n为大于等于2的正整数。
可选地,所述根据所述校正候选结果和所述实体预测结果之间的概率比,确定所述校正候选结果中的目标校正候选结果,并将所述目标校正候选结果确定为目标实体样本,包括:
根据所述预训练实体识别模型切分的切分实体词的概率、所述切分实体词的个数和所述校正候选结果的个数,确定所述校正候选结果和所述实体预测结果之间的概率比;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京三快在线科技有限公司,未经北京三快在线科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010550976.1/2.html,转载请声明来源钻瓜专利网。