[发明专利]用于数据增强的方法和装置有效
申请号: | 201811360022.3 | 申请日: | 2018-11-15 |
公开(公告)号: | CN110008972B | 公开(公告)日: | 2023-06-06 |
发明(设计)人: | 易灿;袁锦程;许辽萨;王维强 | 申请(专利权)人: | 创新先进技术有限公司 |
主分类号: | G06F18/24 | 分类号: | G06F18/24;G06F18/214;G06F18/23 |
代理公司: | 北京永新同创知识产权代理有限公司 11376 | 代理人: | 林锦辉 |
地址: | 英属开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 数据 增强 方法 装置 | ||
1.一种用于数据增强的方法,包括:
利用指定训练样本集中的各个训练样本所包含的属性值,计算所述指定训练样本集的特征值,所述训练样本包括文本类型训练样本和/或非文本类型训练样本;
根据所计算的特征值,确定所述指定训练样本集所属的特征类型;
至少根据所确定的特征类型和用于指示各个数据增强模型适用于对属于不同特征类型的训练样本进行数据增强处理的信息,获得适用于对所述指定训练样本集进行数据增强处理的数据增强模型;以及
利用所获得的数据增强模型,对所述指定训练样本集进行数据增强处理,
其中,所述信息记载所述各个数据增强模型对于属于不同特征类型的训练样本的模型提升效果,其中,任一数据增强模型对于属于任一特征类型的训练样本的模型提升效果表示与第一机器学习模型相比,第二机器学习模型的分类能力的提升程度,所述第一机器学习模型是利用未经过所述任一数据增强模型处理过的属于所述任一特征类型的训练样本训练得到的模型,以及,所述第二机器学习模型是利用已经过所述任一数据增强模型处理过的属于所述任一特征类型的训练样本训练得到的模型,以及
所获得的数据增强模型是所述各个数据增强模型中的其对于属于所确定的特征类型的训练样本的模型提升效果最大的那个数据增强模型,
其中,所述数据增强模型包括伪标签增强类型和翻译法增强类型,所述伪标签增强类型的数据增强模型可用于对非文本类型和文本类型的训练样本进行数据增强处理,以及所述翻译法增强类型的数据增强模型将属于其中一种语言Li的训练样本翻译成属于另一种语言Lj的数据,随后再将翻译得到的属于所述另一语言Lj的数据翻译回来属于所述一种语言Li的数据作为新的训练样本。
2.如权利要求1所述的方法,还包括:
获取用户反馈的所获得的数据增强模型对于所述指定训练样本集的模型提升效果;以及
利用所获取的模型提升效果,更新所述信息中包括的所获取的数据增强模型对属于所确定的特征类型的训练样本的模型提升效果。
3.如权利要求1所述的方法,其中
所述特征值包括多个子特征值,每一个子特征值是利用所述指定训练样本集的所有训练样本中的其中一个属性的属性值计算的,以及
所述确定所述指定训练样本集所属的特征类型包括:
对所述多个子特征值进行聚类;以及
根据聚类结果,判定所述指定训练样本集所属的特征类型。
4.如权利要求1-3中的任一项所述的方法,还包括:
检查所述指定训练样本集中的各个训练样本是否是文本类型,
其中,所获得的数据增强模型是基于检查结果、所确定的特征类型和所述信息而确定的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创新先进技术有限公司,未经创新先进技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811360022.3/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置