[发明专利]一种剔除异常样本的方法及计算机设备在审
申请号: | 202011633991.9 | 申请日: | 2020-12-31 |
公开(公告)号: | CN112699943A | 公开(公告)日: | 2021-04-23 |
发明(设计)人: | 张莉;温舒 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 深圳中一联合知识产权代理有限公司 44414 | 代理人: | 肖遥 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 剔除 异常 样本 方法 计算机 设备 | ||
本申请涉及数据处理技术领域,提供了一种剔除异常样本的方法、剔除异常样本的装置、计算机设备及计算机可读存储介质。其中,一种剔除异常样本的方法,利用原始训练样本集合对N个模型进行训练,得到N个训练后的模型,由于N个训练后的模型能够用于表征训练样本的特征与标签之间不同的对应关系,因此分别通过N个训练后的模型对X个训练样本进行处理,得到的N组预测值集合,能够用于表征X个训练样本对于每个训练后的模型的适用情况,基于X个训练样本在每组预测值集合中的排名值,能够从原始训练样本集合中确定出适用情况较差的异常样本进行剔除,提高了剔除异常样本过程中的科学化程度与自动化程度,本申请方案还可以应用于区块链领域。
技术领域
本发明属于涉及数据处理及区块链技术,尤其涉及一种剔除异常样本的方法、剔除异常样本的装置、计算机设备及计算机可读存储介质。
背景技术
随着人工智能技术的不断发展,基于神经网络开发的机器学习模型也根据不同的需求在更新迭代。
然而,无论是在模型开发还是模型更新迭代的过程中,都需要考虑如何为模型配置训练样本的问题。由于已有的技术方案可以通过各种数据收集渠道获得训练样本,或者基于原始样本集,利用样本扩充方法对进行扩充得到训练样本,因此无论是如何得到训练样本都容易引入异常样本,容易降低模型的训练效率。虽然,现有的异常样本剔除方案是通过对样本的分布进行统计,再根据业务需求从样本集合中识别出异常样本进行剔除,但是该过程需要凭借人为操作与经验实现,可见现有的异常样本剔除方案中,存在科学化程度、自动化程度较低的问题。
发明内容
有鉴于此,本申请实施例提供了一种剔除异常样本的方法、剔除异常样本的装置、计算机设备及计算机可读存储介质,以解决现有的异常样本剔除方案中,存在科学化程度、自动化程度较低的问题。
本申请实施例的第一方面提供了一种剔除异常样本的方法,包括:
利用原始训练样本集合对N个模型进行训练,得到N个训练后的模型;其中,所述原始训练样本集合中包括X个训练样本;X与N均为大于2的整数;
分别通过N个所述训练后的模型,对X个所述训练样本进行处理,得到N组预测值集合;其中,每组所述预测值集合中的X个预测值与X个所述训练样本一一对应;
基于X个所述训练样本在每组所述预测值集合中的排名值,从所述原始训练样本集合中确定出异常样本进行剔除,得到新的训练样本集合。
本申请实施例的第二方面提供了一种剔除异常样本的装置,包括:
训练单元,用于利用原始训练样本集合对N个模型进行训练,得到N个训练后的模型;其中,所述原始训练样本集合中包括X个训练样本;X与N均为大于2的整数;
执行单元,用于分别通过N个所述训练后的模型,对X个所述训练样本进行处理,得到N组预测值集合;其中,每组所述预测值集合中的X个预测值与X个所述训练样本一一对应;
样本剔除单元,用于基于X个所述训练样本在每组所述预测值集合中的排名值,从所述原始训练样本集合中确定出异常样本进行剔除,得到新的训练样本集合。
本申请实施例的第三方面提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方面的各个步骤。
本申请实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现第一方面的各个步骤。
实施本申请实施例提供的一种剔除异常样本的方法、剔除异常样本的装置、计算机设备及计算机可读存储介质具有以下有益效果:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011633991.9/2.html,转载请声明来源钻瓜专利网。