[发明专利]实体样本获取方法、装置及电子设备在审
申请号: | 202010550976.1 | 申请日: | 2020-06-16 |
公开(公告)号: | CN111881681A | 公开(公告)日: | 2020-11-03 |
发明(设计)人: | 温丽红;马璐;刘亮;罗星池;李超 | 申请(专利权)人: | 北京三快在线科技有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06K9/62 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 任亚娟 |
地址: | 100083 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体 样本 获取 方法 装置 电子设备 | ||
1.一种实体样本获取方法,其特征在于,包括:
将待识别语句输入至预训练实体识别模型,得到所述待识别语句对应的实体预测结果;
从实体数据词典中获取所述待识别语句对应的实体分类结果;
基于所述实体预测结果和所述实体分类结果,确定所述待识别语句对应的校正候选结果;
根据所述校正候选结果和所述实体预测结果之间的概率比,确定所述校正候选结果中的目标校正候选结果,并将所述目标校正候选结果确定为目标实体样本。
2.根据权利要求1所述的方法,其特征在于,在所述将待识别语句输入至预训练实体识别模型,得到所述待识别语句对应的实体预测结果之前,还包括:
获取第一数量的实体标注样本;
采用所述第一数量的实体标注样本对所述初始实体识别模型进行训练,得到所述预训练实体识别模型。
3.根据权利要求1所述的方法,其特征在于,所述基于所述实体预测结果和所述实体分类结果,确定所述待识别语句对应的校正候选结果,包括:
在所述实体预测结果为所述预训练实体识别模型切分的单个切分实体词的预测结果时,将所述实体分类结果作为所述校正候选结果。
4.根据权利要求1所述的方法,其特征在于,所述基于所述实体预测结果和所述实体分类结果,确定所述待识别语句对应的校正候选结果,包括:
在所述实体预测结果为所述预训练实体识别模型切分的n个切分实体词的预测结果时,根据所述实体分类结果和所述n个切分实体词中n-1个切分实体词对应的实体预测结果,生成所述待识别语句对应的校正候选结果;
其中,n为大于等于2的正整数。
5.根据权利要求1所述的方法,其特征在于,所述根据所述校正候选结果和所述实体预测结果之间的概率比,确定所述校正候选结果中的目标校正候选结果,并将所述目标校正候选结果确定为目标实体样本,包括:
根据所述预训练实体识别模型切分的切分实体词的概率、所述切分实体词的个数和所述校正候选结果的个数,确定所述校正候选结果和所述实体预测结果之间的概率比;
获取所述概率比中比值最大的概率比,并将比值最大的概率比对应的校正候选结果作为所述目标实体样本。
6.根据权利要求1所述的方法,其特征在于,在所述根据所述校正候选结果和所述实体预测结果之间的概率比,确定所述校正候选结果中的目标校正候选结果,并将所述目标校正候选结果确定为目标实体样本之后,还包括:
获取第二数量的实体标注样本;
根据所述第二数量的实体标注样本和所述目标实体样本对初始实体识别模型进行训练,得到训练后的目标实体识别模型。
7.根据权利要求1所述的方法,其特征在于,在所述根据所述校正候选结果和所述实体预测结果之间的概率比,确定所述校正候选结果中的目标校正候选结果,并将所述目标校正候选结果确定为目标实体样本之后,还包括:
根据所述目标实体样本对所述预训练实体识别模型进行训练,得到训练后的目标实体识别模型。
8.一种实体样本获取装置,其特征在于,包括:
实体预测结果获取模块,用于将待识别语句输入至预训练实体识别模型,得到所述待识别语句对应的实体预测结果;
实体分类结果获取模块,用于从实体数据词典中获取所述待识别语句对应的实体分类结果;
校正候选结果确定模块,用于基于所述实体预测结果和所述实体分类结果,确定所述待识别语句对应的校正候选结果;
目标实体样本确定模块,用于根据所述校正候选结果和所述实体预测结果之间的概率比,确定所述校正候选结果中的目标校正候选结果,并将所述目标校正候选结果确定为目标实体样本。
9.根据权利要求8所述的装置,其特征在于,还包括:
第一样本获取模块,用于获取第一数量的实体标注样本;
预训练模型获取模块,用于采用所述第一数量的实体标注样本对所述初始实体识别模型进行训练,得到所述预训练实体识别模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京三快在线科技有限公司,未经北京三快在线科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010550976.1/1.html,转载请声明来源钻瓜专利网。