[发明专利]一种基于高维空间采样的数据增强方法在审
申请号: | 201910123936.6 | 申请日: | 2019-02-19 |
公开(公告)号: | CN109886333A | 公开(公告)日: | 2019-06-14 |
发明(设计)人: | 王卡风;须成忠;曹廷荣;熊超 | 申请(专利权)人: | 深圳先进技术研究院 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 深圳市科进知识产权代理事务所(普通合伙) 44316 | 代理人: | 曹卫良 |
地址: | 518055 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 训练模型 数据集 训练集 采样 高维空间 测试集 第一数据 数据增强 采样器 分类器 维度 输入分类器 低维空间 使用控制 数据维度 维度空间 新样本 映射 分类 评估 | ||
1.一种基于高维空间采样的数据增强方法,该方法先将需要增强的数据集分为训练集和测试集,其特征在于,所述方法包括:
S1,将所述训练集从低维空间P映射至高维空间D,以获得第一数据集;
S2,搭建训练模型,所述训练模型包括采样器和分类器;
S3,所述采样器通过使用蒙特卡罗方法在所述第一数据集上进行采样以获得第二数据集;
S4,控制所述训练集、所述第二数据集和所述测试集在相同的维度空间;
S5,将控制过维度的训练集和第二数据集输入分类器中,对训练模型进行训练;
S6,使用控制过维度的所述测试集对经训练后的训练模型的性能进行评估。
2.如权利要求1所述方法,其特征在于,所述训练模型还包括Metropolis-Hastings校正器,在步骤S3中,所述“所述采样器通过使用蒙特卡罗方法在所述第一数据集上进行采样以获得第二数据集”的步骤包括:
S31,在所述第一数据集上随机选取一个样本作为初始样本;
S32,对所述初始样本进行T次迭代以获得候选样本;
S33,使用所述Metropolis-Hastings校正器判断所述候选样本是否符合与所述第一数据集一致的分布性质,当判断结果为是时,将当前候选样本加入第二数据集,返回步骤S31;当判断结果为否时,将当前候选样本替换为新的初始样本,返回步骤S32。
3.如权利要求2所述方法,其特征在于,所述Metropolis-Hastings校正器通过设置接受/拒绝比率来判断所述候选样本是否符合与所述第一数据集一致的分布性质,其中,所述接受/拒绝比率的范围为0.8~1.4。
4.如权利要求1所述方法,其特征在于,在步骤S1中,所述“将所述训练集从低维空间P映射至高维空间D,以获得第一数据集”的步骤包括:
通过字典矩阵和升维算子对所述训练集进行升维以获得第一数据集。
5.如权利要求4所述方法,其特征在于,所述字典矩阵随机生成或者利用所述训练集在KSVD算法中训练生成,所述升维算子选自LASSO函数、卷积或者编码中的任意一种。
6.如权利要求1所述方法,其特征在于,所述蒙特卡罗方法为随机梯度朗之万动力学采样法或随机梯度哈密尔顿蒙特卡洛采样法。
7.如权利要求1所述方法,其特征在于,所述分类器选自支持向量机算法、随机森林算法或者卷积神经网络算法中的任意一种。
8.如权利要求1或4所述方法,其特征在于,使用升维算子或降维算子控制所述训练集、所述第二数据集和所述测试集在相同的维度空间,所述升维/降维算子选自卷积/去卷积、编码/去编码或者LASSO函数中的任意一组。
9.如权利要求1所述方法,其特征在于,在步骤S5中,所述“将控制过维度的训练集和第二数据集输入分类器中进行训练”的步骤包括:
先将控制过维度的训练集输入分类器中进行训练,训练完成后,再将控制过维度的第二数据集继续输入所述分类器中进行训练;或者
将控制过维度的所述训练集和所述第二数据集合并后,再输入分类器中进行训练。
10.如权利要求9所述方法,其特征在于,将控制过维度的所述训练集和所述第二数据集按照4:1~7:1的比例合并。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳先进技术研究院,未经深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910123936.6/1.html,转载请声明来源钻瓜专利网。