[发明专利]一种机器学习的训练数据选择方法有效

专利信息
申请号: 201910222007.0 申请日: 2019-03-22
公开(公告)号: CN109961098B 公开(公告)日: 2022-03-01
发明(设计)人: 李向阳;范阳;张兰 申请(专利权)人: 中国科学技术大学
主分类号: G06K9/62 分类号: G06K9/62;G06N20/00
代理公司: 北京凯特来知识产权代理有限公司 11260 代理人: 郑立明;付久春
地址: 230026 安*** 国省代码: 安徽;34
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 机器 学习 训练 数据 选择 方法
【说明书】:

发明公开了一种机器学习的数据选择方法,包括以下步骤:步骤1,选定待选择数据的机器学习模型,并获取该机器学习模型对应的训练数据集;步骤2,从训练数据集中随机选出一个数据子集作为策略训练数据集,通过深度强化学习对策略训练数据集应用于机器学习模型进行若干轮训练,根据训练结果确定与机器学习模型匹配的数据选择策略;步骤3,通过确定的数据选择策略对机器学习模型待输入数据按批次进行选择,将选出的数据用于机器学习模型的训练。该方法能用得出的对当前机器学习模型最优的训练数据选择策略进行机器学习模型的训练数据的选择,提升机器学习模型性能。

技术领域

本发明涉及机器学习领域,尤其涉及一种机器学习的训练数据选择方法。

背景技术

近年来,机器学习,尤其是基于大规模深度神经网络的深度学习技术迅猛发展,已在生活的各个方面得到了应用。随着深度学习的日益流行,机器学习中的数据选择问题成为一个日益受关注的问题。如何自动地选择数据,提高深度学习模型的性能,成为目前的一个迫切的需求。

目前在机器学习数据选择的领域,已有了许多方法,例如将训练数据按照“难易程度”由低到高的所谓“课程”(Curriculum)顺序训练,有利于模型的训练过程。此外,自步学习用数据的损失函数大小(loss value)作为“难易程度”的度量标准。在自步学习算法中,损失值大于一个特定阈值η的数据会被丢弃,而阈值η在训练过程中逐渐增长,直到最终所有数据都被选中。

然而,上述现有的数据选择策略属于人为定义的启发式策略,具有较大的特定性,由于不同的机器学习任务通常具有不同的数据分布和模型特点,这些规则在不同的机器学习任务上往往难以泛化。

发明内容

基于现有技术所存在的问题,本发明的目的是提供一种机器学习的训练数据选择方法,能在机器学习的不同阶段根据当前训练状态动态地选择训练数据,进而提高机器学习模型的性能。

本发明的目的是通过以下技术方案实现的:

本发明实施方式提供一种机器学习的训练数据选择方法,包括以下步骤:

步骤1,选定待选择数据的机器学习模型,并获取该机器学习模型对应的训练数据集;

步骤2,从所述训练数据集中随机选出一个数据子集作为策略训练数据集,通过深度强化学习对所述策略训练数据集应用于所述机器学习模型进行若干轮训练,根据训练结果确定与所述机器学习模型匹配的数据选择策略;

步骤3,通过确定的所述数据选择策略对所述机器学习模型待输入数据按批次进行选择,将选出的数据用于所述机器学习模型的训练。

由上述本发明提供的技术方案可以看出,本发明实施例提供的机器学习的训练数据选择方法,其有益效果为:

通过深度强化学习对所述策略训练数据集应用于所述机器学习模型进行若干轮训练,根据训练结果确定与所述机器学习模型匹配的数据选择策略的方式,能得出对当前机器学习模型最优的训练数据选择策略,提升机器学习模型性能,由于不需要主动遍历所有未训练过的数据以选出用于训练的批次,降低了计算开销;并且由于不是对每个任务使用简单的启发式策略,对不同的学习任务能自适应的确定选择策略,实现为不同的学习任务最优化的选择训练数据。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。

图1为本发明实施例提供的机器学习的训练数据选择方法的流程图;

图2为本发明实施例提供的选择方法中实验的MLP在MNIST数据集的一半训练数据上不同数据选择策略的测试集准确率曲线图;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910222007.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top