[发明专利]一种机器学习冗余数据删除方法及系统在审
申请号: | 201811547099.1 | 申请日: | 2018-12-18 |
公开(公告)号: | CN109800891A | 公开(公告)日: | 2019-05-24 |
发明(设计)人: | 韩锐;刘驰 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06N20/10 | 分类号: | G06N20/10;G06F16/174 |
代理公司: | 北京安博达知识产权代理有限公司 11271 | 代理人: | 徐国文 |
地址: | 100086 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 压缩点 训练数据 粗粒度 细粒度 机器学习模型 冗余数据删除 机器学习 输入数据点 冗余数据 训练过程 压缩处理 准确度 备选的 降维 移除 删除 量化 | ||
1.一种机器学习冗余数据删除方法,其特征在于,所述方法包括:
获取机器学习模型对应的被训练数据;
对所述被训练数据采用设定的降维方式进行压缩处理,得到粗粒度压缩点;
在训练过程中,基于每个粗粒度压缩点获得所述粗粒度压缩点对应的多个细粒度压缩点;
基于所述细粒度压缩点对机器学习模型相应参数的影响值删除所述细粒度压缩点对应的备选的被训练数据。
2.如权利要求1所述的迭代机器学习冗余数据删除方法,其特征在于,所述对所述被训练数据采用设定的降维方式进行压缩处理,得到粗粒度压缩点,包括:
基于增量奇异值分解法对所述机器学习模型对应的被训练数据进行降维;
基于所述降维数据和数据维度划分为多个子集;
基于所述划分的子集对应的所述被训练数据计算每个子集的平均值;
基于所述平均值进行压缩,转换成对应的粗粒度压缩点。
3.如权利要求1所述的迭代机器学习冗余数据删除方法,其特征在于,所述基于所述细粒度压缩点对机器学习模型相应参数的影响值删除所述细粒度压缩点对应的备选的被训练数据,之前还包括:
获取所述粗粒度压缩点对机器学习模型相应参数的影响值以及机器学习模型相应参数的有效点上界和有效点下界;
基于所述粗粒度压缩点参数的影响值和所述有效点上界进行比较;
保存所述粗粒度压缩点参数的影响值大于所述有效点上界的粗粒度压缩点对应的备选的被训练数据,删除所述粗粒度压缩点参数的影响值小于所述有效点下界的粗粒度压缩点对应的备选的被训练数据。
4.如权利要求3所述的迭代机器学习冗余数据删除方法,其特征在于,所述基于所述细粒度压缩点对机器学习模型相应参数的影响值删除所述细粒度压缩点对应的备选的被训练数据,包括:
当所述粗粒度压缩点参数的影响值小于或等于所述有效点上界,大于所述有效点下界时:
基于所述粗粒度压缩点对应的多个细粒度压缩点参数的影响值与所述有效点上界进行比较;
删除所述细粒度压缩点参数的影响值小于或等于所述有效点上界的细粒度压缩点对应的备选的被训练数据。
5.如权利要求1或3所述的迭代机器学习冗余数据删除方法,其特征在于,所述粗粒度压缩点或细粒度压缩点参数的影响值,计算式如下:
式中,e为粗粒度压缩点或细粒度压缩点的影响值;为机器学习被训练数据的特征向量值;y为机器学习被训练数据的特征向量值对应的标签值;g为机器学习被训练数据的梯度;Θ所有机器学习被训练数据集合;θ为机器学习被训练数据集合当前计算的参数。
6.一种迭代机器学习冗余数据删除系统,其特征在于,所述系统包括:
获取模块:用于获取机器学习模型对应的被训练数据;
第一压缩模块:用于对所述被训练数据采用设定的降维方式进行压缩处理,得到粗粒度压缩点;
第二压缩模块:用于在训练过程中,基于每个粗粒度压缩点获得所述粗粒度压缩点对应的多个细粒度压缩点;
删除模块:用于基于所述细粒度压缩点对机器学习模型相应参数的影响值删除所述细粒度压缩点对应的备选的被训练数据。
7.如权利要求6所述的迭代机器学习冗余数据删除系统,其特征在于,所述第一压缩模块,包括:降维单元、划分单元、计算单元和压缩单元;
述降维单元,用于基于增量奇异值分解法对所述机器学习模型对应的被训练数据进行降维;
所述划分单元,用于基于所述降维数据和数据维度划分为多个子集;
所述计算单元,用于基于所述划分的子集对应的所述被训练数据计算每个子集的平均值;
所述压缩单元,用于基于所述平均值进行压缩,转换成对应的粗粒度压缩点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811547099.1/1.html,转载请声明来源钻瓜专利网。