[发明专利]数据处理方法及数据处理装置有效
申请号: | 201811441548.4 | 申请日: | 2018-11-29 |
公开(公告)号: | CN109583590B | 公开(公告)日: | 2020-11-13 |
发明(设计)人: | 张树荣 | 申请(专利权)人: | 深圳和而泰数据资源与云技术有限公司 |
主分类号: | G06N5/02 | 分类号: | G06N5/02;G06N20/00 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郝传鑫;熊永强 |
地址: | 518000 广东省深圳市南山区高新南区科*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 | ||
1.一种数据处理方法,其特征在于,包括:
生成N个样本集合,每个所述样本集合中包括训练集和测试集,所述N为大于或等于2的整数;
通过每个所述样本集合中的训练集训练目标模型,并通过每个所述样本集合中的测试集对所述目标模型进行评估,获得评估结果;
从所述N个样本集合中确定出评估结果低的M个样本集合,并确定所述M个样本集合中每个样本的累计概率,所述M为大于或等于1的整数,所述M个样本集合中每个样本的累计概率为所述M个样本集合中每个样本被选为所述训练集的概率加权和;
根据所述M个样本集合中每个样本的累计概率以及预置置信区间,确定所述M个样本集合中的污染样本;
所述生成N个样本集合,包括:
确定所述N个样本集合中每个所述样本集合的参考概率P,所述P大于0.5;
根据所述N个样本集合中每个所述样本集合的所述P生成所述N个样本集合,其中,每个所述样本集合对应一个P,每个所述样本集合中的样本包括随机数,每个所述样本集合中大于P的随机数为测试集,每个所述样本集合中小于P的随机数为训练集。
2.根据权利要求1所述的方法,其特征在于,所述根据所述M个样本集合中每个样本的累计概率以及预置置信区间,确定所述M个样本集合中的污染样本之前,所述方法还包括:
根据所述M与所述P的运算结果,确定置信区间估算方法;
根据所述置信区间估算方法确定所述预置置信区间。
3.根据权利要求2所述的方法,其特征在于,所述根据所述M与所述P的运算结果,确定置信区间估算方法,包括:
在M×P≥4且M×(1-P)≥4的情况下,确定所述置信区间估算方法为第一置信区间估算方法;
否则,确定所述置信区间估算方法为第二置信区间估算方法。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述根据所述M个样本集合中每个样本的累计概率以及预置置信区间,确定所述M个样本集合中的污染样本之后,所述方法还包括:
根据所述N个样本集合中的非污染样本训练所述目标模型,得到训练后的所述目标模型,所述N个样本集合中的非污染样本包括所述N个样本集合中除所述M个样本集合中的污染样本之外的样本;
根据所述目标模型的功能,应用所述训练后的所述目标模型。
5.一种数据处理装置,其特征在于,包括:
生成单元,用于生成N个样本集合,每个所述样本集合中包括训练集和测试集,所述N为大于或等于2的整数;
评估单元,用于通过每个所述样本集合中的训练集训练目标模型,并通过每个所述样本集合中的测试集对所述目标模型进行评估,获得评估结果;
第一确定单元,用于从所述N个样本集合中确定出评估结果低的M个样本集合,并确定所述M个样本集合中每个样本的累计概率,所述M为大于或等于1的整数,所述M个样本集合中每个样本的累计概率为所述M个样本集合中每个样本被选为所述训练集的概率加权和;
第二确定单元,用于根据所述M个样本集合中每个样本的累计概率以及预置置信区间,确定所述M个样本集合中的污染样本;
所述生成单元包括:
确定子单元,用于确定所述N个样本集合中每个所述样本集合的参考概率P,所述P大于0.5;
生成子单元,用于根据所述N个样本集合中每个所述样本集合的所述P生成所述N个样本集合,其中,每个所述样本集合对应一个P,每个所述样本集合中的样本包括随机数,每个所述样本集合中大于P的随机数为测试集,每个所述样本集合中小于P的随机数为训练集。
6.根据权利要求5所述的装置,其特征在于,所述装置还包括:
第三确定单元,用于根据所述M与所述P的运算结果,确定所述置信区间估算方法为置信区间估算方法;
第四确定单元,用于根据所述置信区间估算方法确定所述置信区间估算方法为所述预置置信区间。
7.一种数据处理装置,其特征在于,包括处理器和存储器,所述处理器和所述存储器耦合;其中,所述存储器存储有程序指令,所述程序指令被所述处理器执行时,使所述处理器执行如权利要求1至4所述的方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被数据处理装置的处理器执行时,使所述处理器执行权利要求1至4任意一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳和而泰数据资源与云技术有限公司,未经深圳和而泰数据资源与云技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811441548.4/1.html,转载请声明来源钻瓜专利网。