[发明专利]标注模型训练、样本标注方法及相关装置在审
申请号: | 202110721209.7 | 申请日: | 2021-06-28 |
公开(公告)号: | CN113378835A | 公开(公告)日: | 2021-09-10 |
发明(设计)人: | 杨喜鹏;谭啸;孙昊 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06K9/32 | 分类号: | G06K9/32;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;马晓亚 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 标注 模型 训练 样本 方法 相关 装置 | ||
1.一种标注模型训练方法,包括:
按半监督学习方式分别训练用于标注的第一模型和第二模型,所述第一模型基于有标注样本训练得到,所述第二模型基于非标注样本和由所述第一模型确定的参考标注结果训练得到,所述第一模型的网络规模大于所述第二模型的网络规模;
分别利用所述第一模型和当前的第二模型输出测试样本的第一特征图和第二特征图;
根据所述第一特征图与所述第二特征图之间的差异,对当前的第二模型进行调整;
将所述差异小于预设差异的第二模型输出为目标标注模型。
2.根据权利要求1所述的方法,其中,按半监督学习方式分别训练用于标注的第一模型和第二模型,包括:
以训练样本集合中的有标注样本作为输入、与所述有标注样本对应的标注信息作为输出,训练待训练第一模型,得到第一模型;
利用所述第一模型对所述训练样本集合中的非标注样本进行处理,得到所述非标注样本的参考标注结果;
以所述非标注样本作为输入、所述参考标注结果作为输出,训练待训练第二模型,得到第二模型。
3.根据权利要求1所述的方法,其中,所述根据所述第一特征图与所述第二特征图之间的差异,对当前的第二模型进行调整,包括:
获取所述第一模型和所述第二模型之间的网络规模比值;
根据所述网络规模比值确定目标差异阈值;
响应于所述差异大于所述目标差异阈值,以训练样本集合中的有标注样本作为输入、与所述有标注样本对应的标注信息作为输出,训练当前的第二模型。
4.根据权利要求1所述的方法,还包括:
利用对抗网络确定所述第一特征图和/或所述第二特征图所来源的模型;
响应于所述对抗网络无法确定所述第一特征图和/或所述第二特征图来源于所述第一模型或当前的第二模型,确定所述第一特征图和所述第二特征图之间的差异小于所述预设差异。
5.根据权利要求1所述的方法,还包括:
响应于对当前的第二模型进行调整后所述差异的最少值仍大于标准阈值,生成有样本差异反馈信息,所述样本差异反馈信息用于反馈所述有标注样本和所述非标注样本之间的差异异常。
6.根据权利要求5所述的方法,还包括:
响应于生成所述样本差异反馈信息,对所述有标注样本进行随机增量处理后,得到更新训练样本集合;
利用所述第一模型生成所述更新训练样本集合中的更新非标注样本进行处理,得到所述更新非标注样本的更新参考标注结果;
以所述更新非标注样本作为输入、所述更新参考标注结果作为输出,训练当前的第二模型,得到更新第二模型。
7.一种样本标注方法,包括:
获取待标注样本;
调用目标标注模型对所述待标注样本进行标注;其中,所述目标标注模型根据权利要求1-5中任一项所述的标注模型训练方法得到。
8.一种标注模型训练装置,包括:
第一模型及第二模型训练单元,被配置成按半监督学习方式分别训练用于标注的第一模型和第二模型,所述第一模型基于有标注样本训练得到,所述第二模型基于非标注样本和由所述第一模型确定的参考标注结果训练得到,所述第一模型的网络规模大于所述第二模型的网络规模;
特征图输出单元,被配置成分别利用当前的第一模型和第二模型输出测试样本的第一特征图和第二特征图;
第二模型调整单元,被配置成根据所述第一特征图与所述第二特征图之间的差异,对当前的第二模型进行调整;
标注模型生成单元,被配置成将所述差异小于预设差异的第二模型输出为目标标注模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110721209.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种陶瓷气体放电管用陶瓷管的烧结工艺
- 下一篇:一种龙门式多功能数控钻床