[发明专利]数据处理方法及数据处理装置有效
申请号: | 201811441548.4 | 申请日: | 2018-11-29 |
公开(公告)号: | CN109583590B | 公开(公告)日: | 2020-11-13 |
发明(设计)人: | 张树荣 | 申请(专利权)人: | 深圳和而泰数据资源与云技术有限公司 |
主分类号: | G06N5/02 | 分类号: | G06N5/02;G06N20/00 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郝传鑫;熊永强 |
地址: | 518000 广东省深圳市南山区高新南区科*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 | ||
本申请公开了一种数据处理方法及装置。其中,该方法包括:生成N个样本集合,每个所述样本集合中包括训练集和测试集,所述N为大于或等于2的整数;通过每个所述样本集合中的训练集训练目标模型,并通过每个所述样本集合中的测试集对所述目标模型进行评估,获得评估结果;从所述N个样本集合中确定出评估结果低的M个样本集合,并确定所述M个样本集合中每个样本的累计概率,所述M为大于或等于1的整数;根据所述M个样本集合中每个样本的累计概率以及预置置信区间,确定所述M个样本集合中的污染样本。相应的,还提供了对应的装置。采用本申请,能够有效识别出被污染的样本,提高模型训练的效率以及准确性。
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据处理方法及数据处理装置。
背景技术
随着人工智能(artificial intelligence,AI)技术不断普及,无论大型企业还是微小企业,都有可能用上基于机器学习、深度学习等等的技术系统。
但是,目前对于这种新兴的人工智能系统的安全性的研究尚未跟得上商业化的浪潮,防御的策略布局尚未形成气候,一旦发生有效攻击,可能会使得人工智能产品遭受重大的打击。如对于AI模型的训练阶段,若训练数据被污染,则整个AI模型也会易受到数据污染的攻击,甚至会使得训练出来的AI模型无法发挥其作用。
由此,如何避免数据污染亟待解决。
发明内容
本申请提供一种数据处理方法及数据处理装置,能够有效识别出被污染的样本,提高模型训练的效率以及准确性。
第一方面,本申请实施例提供了一种数据处理方法,包括:
生成N个样本集合,每个所述样本集合中包括训练集和测试集,所述N为大于或等于2的整数;
通过每个所述样本集合中的训练集训练目标模型,并通过每个所述样本集合中的测试集对所述目标模型进行评估,获得评估结果;
从所述N个样本集合中确定出评估结果低的M个样本集合,并确定所述M个样本集合中每个样本的累计概率,所述M为大于或等于1的整数;
根据所述M个样本集合中每个样本的累计概率以及预置置信区间,确定所述M个样本集合中的污染样本。
本申请实施例中,通过生成包括训练集和测试集的样本集合,然后通过训练集训练目标模型,通过测试集对该目标模型进行评估;从而根据评估结果的高低来识别M个样本集合(评估结果低的M个)中的污染样本;一方面,不管什么样的模型都可以应用本申请实施例所提供的方法,具有通用性;另一方面,通过对评估结果低的样本集合进行有统计学指标支撑(如通过累计概率以及预置置信区间)的污染样本的识别,还可提高污染样本识别的准确性,进而提高目标模型的应用性能,如提高了模型训练的效率以及准确性。
在一种可能的实现方式中,所述生成N个样本集合,包括:
确定所述N个样本集合中每个所述样本集合的参考概率P,所述P大于0.5;
根据所述N个样本集合中每个所述样本集合的所述P生成所述N个样本集合,其中,每个所述样本集合对应一个P,每个所述样本集合中的样本包括随机数,每个所述样本集合中大于P的随机数为测试集,每个所述样本集合中小于P的随机数为训练集。
本申请实施例中,通过所述N个样本集合中每个所述样本集合的参考概率生成所述N个样本集合,且所述样本集合中包括随机数,再通过随机数确定测试集和训练集,可保证生成的N个样本集合均匀分布。
在一种可能的实现方式中,所述根据所述M个样本集合中每个样本的累计概率以及预置置信区间,确定所述M个样本集合中的污染样本之前,所述方法还包括:
根据所述M与所述P的运算结果,确定置信区间估算方法;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳和而泰数据资源与云技术有限公司,未经深圳和而泰数据资源与云技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811441548.4/2.html,转载请声明来源钻瓜专利网。