[发明专利]一种机器学习的训练数据选择方法有效
申请号: | 201910222007.0 | 申请日: | 2019-03-22 |
公开(公告)号: | CN109961098B | 公开(公告)日: | 2022-03-01 |
发明(设计)人: | 李向阳;范阳;张兰 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N20/00 |
代理公司: | 北京凯特来知识产权代理有限公司 11260 | 代理人: | 郑立明;付久春 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 机器 学习 训练 数据 选择 方法 | ||
本发明公开了一种机器学习的数据选择方法,包括以下步骤:步骤1,选定待选择数据的机器学习模型,并获取该机器学习模型对应的训练数据集;步骤2,从训练数据集中随机选出一个数据子集作为策略训练数据集,通过深度强化学习对策略训练数据集应用于机器学习模型进行若干轮训练,根据训练结果确定与机器学习模型匹配的数据选择策略;步骤3,通过确定的数据选择策略对机器学习模型待输入数据按批次进行选择,将选出的数据用于机器学习模型的训练。该方法能用得出的对当前机器学习模型最优的训练数据选择策略进行机器学习模型的训练数据的选择,提升机器学习模型性能。
技术领域
本发明涉及机器学习领域,尤其涉及一种机器学习的训练数据选择方法。
背景技术
近年来,机器学习,尤其是基于大规模深度神经网络的深度学习技术迅猛发展,已在生活的各个方面得到了应用。随着深度学习的日益流行,机器学习中的数据选择问题成为一个日益受关注的问题。如何自动地选择数据,提高深度学习模型的性能,成为目前的一个迫切的需求。
目前在机器学习数据选择的领域,已有了许多方法,例如将训练数据按照“难易程度”由低到高的所谓“课程”(Curriculum)顺序训练,有利于模型的训练过程。此外,自步学习用数据的损失函数大小(loss value)作为“难易程度”的度量标准。在自步学习算法中,损失值大于一个特定阈值η的数据会被丢弃,而阈值η在训练过程中逐渐增长,直到最终所有数据都被选中。
然而,上述现有的数据选择策略属于人为定义的启发式策略,具有较大的特定性,由于不同的机器学习任务通常具有不同的数据分布和模型特点,这些规则在不同的机器学习任务上往往难以泛化。
发明内容
基于现有技术所存在的问题,本发明的目的是提供一种机器学习的训练数据选择方法,能在机器学习的不同阶段根据当前训练状态动态地选择训练数据,进而提高机器学习模型的性能。
本发明的目的是通过以下技术方案实现的:
本发明实施方式提供一种机器学习的训练数据选择方法,包括以下步骤:
步骤1,选定待选择数据的机器学习模型,并获取该机器学习模型对应的训练数据集;
步骤2,从所述训练数据集中随机选出一个数据子集作为策略训练数据集,通过深度强化学习对所述策略训练数据集应用于所述机器学习模型进行若干轮训练,根据训练结果确定与所述机器学习模型匹配的数据选择策略;
步骤3,通过确定的所述数据选择策略对所述机器学习模型待输入数据按批次进行选择,将选出的数据用于所述机器学习模型的训练。
由上述本发明提供的技术方案可以看出,本发明实施例提供的机器学习的训练数据选择方法,其有益效果为:
通过深度强化学习对所述策略训练数据集应用于所述机器学习模型进行若干轮训练,根据训练结果确定与所述机器学习模型匹配的数据选择策略的方式,能得出对当前机器学习模型最优的训练数据选择策略,提升机器学习模型性能,由于不需要主动遍历所有未训练过的数据以选出用于训练的批次,降低了计算开销;并且由于不是对每个任务使用简单的启发式策略,对不同的学习任务能自适应的确定选择策略,实现为不同的学习任务最优化的选择训练数据。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的机器学习的训练数据选择方法的流程图;
图2为本发明实施例提供的选择方法中实验的MLP在MNIST数据集的一半训练数据上不同数据选择策略的测试集准确率曲线图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910222007.0/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置