[发明专利]一种基于高维空间采样的数据增强方法在审
申请号: | 201910123936.6 | 申请日: | 2019-02-19 |
公开(公告)号: | CN109886333A | 公开(公告)日: | 2019-06-14 |
发明(设计)人: | 王卡风;须成忠;曹廷荣;熊超 | 申请(专利权)人: | 深圳先进技术研究院 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 深圳市科进知识产权代理事务所(普通合伙) 44316 | 代理人: | 曹卫良 |
地址: | 518055 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 训练模型 数据集 训练集 采样 高维空间 测试集 第一数据 数据增强 采样器 分类器 维度 输入分类器 低维空间 使用控制 数据维度 维度空间 新样本 映射 分类 评估 | ||
本发明提供了一种基于高维空间采样的数据增强方法,该方法先将需要增强的数据集分为训练集和测试集,包括:S1,将所述训练集从低维空间P映射至高维空间D,以获得第一数据集;S2,搭建训练模型,所述训练模型包括采样器和分类器;S3,所述采样器通过使用蒙特卡罗方法在所述第一数据集上进行采样以获得第二数据集;S4,控制所述训练集、所述第二数据集和所述测试集在相同的维度空间;S5,将控制过维度的训练集和第二数据集输入分类器中,对训练模型进行训练;S6,使用控制过维度的所述测试集对经训练后的训练模型的性能进行评估。该方法摆脱在更多的数据维度上进行采样的限制,产生的新样本更加适合分类器分类。
技术领域
本发明涉及数据增强技术领域,更具体而言,涉及一种将数据训练集升维后,再在高维空间进行蒙特卡罗采样生成新样本来增强数据的方法。
背景技术
机器学习、深度学习提高正确率一般通过数据增强(Data Augmentation)或者调整机器学习分类、回归算法来完成。数据增强是机器学习、深度学习研究的重要分支之一,获得充足、有效的数据是得到高正确率的重要手段。在实践中,数据往往都是不充足的或者原始数据中有很多的无效冗余数据,在这种情况下,需要寻找更多的数据或是对原始数据进行有效增强。在实际问题中,可能存在数据种类多,但是数据量级偏少,这种情况下对问题的解决是一个很大的阻碍,一种解决的办法便是利用原始数据进行数据增强,来获取更多的适用于任务的数据。为了尽可能充分利用训练数据,一般会通过一系列随机变换来“扩充”训练数据,这样机器学习模型就不会看到完全相同的两次训练数据,有助于防止模型过拟合,从而提升测试正确率。以下介绍两种目前最新的数据增强方法:第一种是AutoAugment数据增强方法:EkinD.Cubuk等的论文《AutoAugment:Learning AugmentationPolicies from Data》通过模型学习出适合当前任务的数据增强方法。使用强化学习从数据本身寻找最佳图像变换策略,对于不同的任务学习不同的增强方法组合,是在原始图像上对已有图像操作集合的搜索;但是从本质上来看,该方法和常用的一些算法(如:旋转,仿射等)没有本质的区别,采样的空间以及采样的维度均没有改变。第二种是GAN数据增强方法:生成对抗网络(GAN:Generative adversarial networks)通过模型学习数据的分布,随机生成与训练数据集分布一致的图片,但是该方法不能直接提升分类器的正确率。
发明内容
鉴于上述问题,本发明提出了一种将数据训练集升维,然后根据升维后的数据集采用蒙特卡罗采样的方法来生成新样本,并结合机器学习算法的选择、算法超参数的调整来联合优化,从而提高机器学习正确率的技术方案,如下:
本发明提供了一种基于高维空间采样的数据增强方法,该方法先将需要增强的数据集分为训练集和测试集,具体包括:
S1,将所述训练集从低维空间P映射至高维空间D,以获得第一数据集;
S2,搭建训练模型,所述训练模型包括采样器和分类器;
S3,所述采样器通过使用蒙特卡罗方法在所述第一数据集上进行采样以获得第二数据集;
S4,控制所述训练集、所述第二数据集和所述测试集在相同的维度空间;
S5,将控制过维度的训练集和第二数据集输入分类器中,对训练模型进行训练;
S6,使用控制过维度的所述测试集对经训练后的训练模型的性能进行评估。
优选地,所述训练模型还包括Metropolis-Hastings校正器,在步骤S3中,所述“所述采样器通过使用蒙特卡罗方法在所述第一数据集上进行采样以获得第二数据集”的步骤包括:
S31,在所述第一数据集上随机选取一个样本作为初始样本;
S32,对所述初始样本进行T次迭代以获得候选样本;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳先进技术研究院,未经深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910123936.6/2.html,转载请声明来源钻瓜专利网。