[发明专利]一种清洗数据的方法和装置在审
申请号: | 201810721515.9 | 申请日: | 2018-07-06 |
公开(公告)号: | CN109241397A | 公开(公告)日: | 2019-01-18 |
发明(设计)人: | 徐兴 | 申请(专利权)人: | 四川斐讯信息技术有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/215;G06N3/04;G06N3/08 |
代理公司: | 成都硕荟知识产权代理事务所(特殊普通合伙) 51272 | 代理人: | 刘桂芝 |
地址: | 610100 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 清洗 方法和装置 负样本 正样本 概率确定 数据清洗 自动设置 准确率 迁移 筛选 申请 学习 | ||
本申请公开一种清洗数据的方法和装置,在对数据清洗的过程中,先挑出待清洗数据中大概率确定为正确的数据和错误的数据,中间有一些比较难以确认的数据再进行筛选,再挑选出正样本和负样本,从而大幅度减少人工,通过这种方式挑选出来的正样本和负样本的准确率很高,通过迁移学习和自动设置阈值的方法,可以快速而且可靠的对数据进行清洗。
技术领域
本申请涉及计算机技术领域,尤其涉及一种清洗数据的方法和装置。
背景技术
随着计算机科学与技术的发展,深度学习越来越广泛地应用于我们的生活中。数据对于深度学习就像动力能源对于机器,没有数据,再好的深度学习模型也发挥不了作用。获取数据的一个重要的方式是网络爬虫,但是网上爬下来的数据会包含大量错误,这也就给数据清洗工作人员带来很大的工作量。
卷积神经网络目前正大量用于图像分类,图像分类的前提是拥有大量的数据。对于网络爬虫获取的图片,需要进一步的清洗,目前常用的清洗方法有:
(1)人工清洗
人工清洗的方法是目前数据清洗中最常用的一种方法,该方法主要通过人工识别的方式从大量的数据中清洗去除掉错误的图像。
但人工清洗方法,主要缺点是需要的人力成本比较大,速度慢。
(2)通过md5去重或者图像相似度算法去除相似图像
通过去重和去相似图像算法能够去除掉一些重复数据或差别很小的数据。
但本方法主要缺点是只能去除一些重复的或者相似的图像,没有能真正完成数据清洗。
(3)基于多次深度学习训练迭代的清洗
这种方法先直接利用低质量分类图像数据训练一个初步的卷积神经网络,再用该网络对数据本身进行识别,清洗掉模型识别为本类的伪概率低到一定程度的图像,或者数量少于一定程度的图像类别,重复上述过程直到获得所有图像数据类型的识别率达到预设的标准。
本方法有一定的应用范围,例如只有在一个数据集中每个分类中包含少量的错误数据,而且错误数据与整体数据之间几乎不存在干扰。但如果错误数据在某一分类中占大多数,或者错误数据与正确数据之间干扰比较大,会对数据清洗的结果又非常大的影响。
因此,如何自动地正确且快速的清洗网络爬虫获取的数据,成为有必要解决的技术问题。
发明内容
本申请的多个方面提供一种清洗数据的方法和装置,能自动地正确且快速的清洗网络爬虫获取的数据。
本申请的第一方面提供一种清洗数据的方法,包括:
对多类数据进行清洗得到正确数据和错误数据;
对所述正确数据进行训练,得到训练之后的第一训练模型;
对某一待清洗数据先进行去重和以相似度阈值进行去相似度得到第一剩余待清洗数据;
按照指定的规则从所述第一剩余待清洗数据挑选出至少一个正样本、至少一个负样本和第二剩余待清洗数据;
对所述至少一个正样本和所述至少一个负样本使用所述第一训练模型做迁移学习得到第二训练模型;
根据所述第二训练模型确定第一阈值和第二阈值,其中,所述第一阈值和所述第二阈值用于对数据被判断为正负样本的置信度而设置的,所述第一阈值小于所述第二阈值,所述第一阈值为根据负样本的预设准确度计算所得,所述第二阈值为根据正样本的预设准确度计算所得;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川斐讯信息技术有限公司,未经四川斐讯信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810721515.9/2.html,转载请声明来源钻瓜专利网。