[发明专利]使用教师-学生学习模式进行模型训练在审
申请号: | 202010527266.7 | 申请日: | 2020-06-11 |
公开(公告)号: | CN112132170A | 公开(公告)日: | 2020-12-25 |
发明(设计)人: | 刘喆;A·密斯拉;P·古恩德查;J·马哈姆德;Y·巴哈尔加特 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N20/00;G06Q50/20 |
代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 李颖 |
地址: | 美国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 使用 教师 学生 学习 模式 进行 模型 训练 | ||
本公开涉及使用教师‑学生学习模式进行模型训练。提供了一种用于模型训练的方法、系统和计算机可读存储介质。该方法可以包括使用标记数据集的子集训练第一分类器、第二分类器和第三分类器。该方法还可以包括使用第一分类器、第二分类器和第三分类器从未标记数据集中预测伪标记数据集。该方法还包括将角色分配给第一分类器、第二分类器和第三分类器。该方法还可以包括基于分配给第三分类器的角色,从伪标记数据集中选择教学样本数据集,其中第三分类器被分配学生角色。该方法还可以包括使用教学样本数据集和标记数据集的子集重新训练第三分类器。
背景技术
本公开涉及模型训练,并且更具体地,涉及基于使用教师-学生模式(paradigm)技术的基于半监督训练方法的模型训练。
典型的半监督训练方法包括自我训练、协同训练、三训练和有分歧的三训练。协同训练涉及两个分类器互相学习以实现更好的性能。如果其他两个分类器在预测标记上达成共识,则三训练涉及将训练样本添加到第三分类器。在有分歧的三训练中,强加了条件,其中两个基本分类器必须在预测超过静态置信度阈值的预测上达成一致。第三个分类器必须与其他两个基本分类器有分歧。一旦满足条件,就可以进行训练迭代。
发明内容
各种实施例采用教师-学生学习模式进行模型训练。该方法可以包括使用标记数据集的子集训练第一个分类器、第二个分类器和第三个分类器。可以使用自举(bootstrap)采样技术或其他各种方法来确定子集,以增加训练的分类器的多样性。该方法还可以包括使用第一分类器、第二分类器和第三分类器从未标记数据集预测伪标记数据集。伪标记数据集集可以包括伪标记数据集中样本的建议标记和预测概率。该方法还包括将角色分配给第一分类器、第二分类器和第三分类器。分类器被分配的每个角色都基于预测阈值和标记协议。该方法还可以包括基于分配给第三分类器的角色从伪标记数据集中选择教学样本数据集,其中第三分类器被分配为学生角色。该方法还可以包括使用标记数据集的子集以及教学样本数据集重新训练第三分类器。重新训练后,该方法可以包括更新角色分配的预测阈值,并达到停止准则。
进一步的实施例针对用于在系统上使用教师-学生学习范型进行模型训练的计算机可读介质,其可包括程序指令,该程序指令可由处理器执行以使系统执行指令。这些指令可以使系统使用标记数据集的子集训练第一分类器、第二分类器和第三分类器。可以使用自举采样技术或其他各种方法来确定子集,以增加训练的分类器的多样性。指令还可以使系统使用第一分类器、第二分类器和第三分类器从未标记数据集中预测伪标记数据集。伪标记数据集可以包括伪标记数据集中的样本的建议标记和预测概率。指令还可以使系统将角色分配给第一分类器、第二分类器和第三分类器。分类器被分配的每个角色都基于预测阈值和标记协议。指令还可以使系统基于分配给第三分类器的角色从伪标记数据集中选择教学样本数据集,其中,第三分类器被分配为学生角色。指令还可以使系统使用标记数据集的子集以及教学样本数据集重新训练第三分类器。在重新训练之后,这些指令可以使系统更新角色分配的预测阈值并达到停止准则。
其他实施例指向系统,该系统可以包括至少一个处理组件和至少一个存储器组件。该系统还可以包括,标记数据集、未标记数据集、用于训练和预测的分类器、伪标记数据集、配置为将角色分配给系统中各种分类器的角色分配器、教学样本数据集和停止准则组件。存储器组件还可以包括程序指令,该程序指令使系统使用标记数据集的子集训练第一分类器、第二分类器和第三分类器。子集可以使用自举采样技术或其他各种方法来确定,以增加训练的分类器的多样性。这些指令可以进一步使系统使用第一分类器、第二分类器和第三分类器从未标记数据集预测伪标记数据集。伪标记数据集可以包括伪标记数据集中的样本的建议标记和预测概率。这些指令还可以使系统将角色分配给第一分类器、第二分类器和第三分类器。分类器被分配的每个角色都基于预测阈值和标记协议。这些指令还可以使系统基于分配给第三分类器的角色从伪标记数据集中选择教学样本数据集,其中第三分类器被分配为学生角色。这些指令还可以使系统使用标记数据集的子集以及教学样本数据集重新训练第三分类器。经过重新训练,指令可以使系统更新角色分配的预测阈值,并达到停止准则。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010527266.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种新能源汽车电池修复检查设备
- 下一篇:由烃制备醇的方法