[发明专利]一种清洗数据的方法和装置在审

申请号：	201810721515.9	申请日：	2018-07-06
公开（公告）号：	CN109241397A	公开（公告）日：	2019-01-18
发明（设计）人：	徐兴	申请（专利权）人：	四川斐讯信息技术有限公司
主分类号：	G06F16/9535	分类号：	G06F16/9535;G06F16/215;G06N3/04;G06N3/08
代理公司：	成都硕荟知识产权代理事务所(特殊普通合伙) 51272	代理人：	刘桂芝
地址：	610100 四川省成***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	清洗方法和装置负样本正样本概率确定数据清洗自动设置准确率迁移筛选申请学习
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开一种清洗数据的方法和装置，在对数据清洗的过程中，先挑出待清洗数据中大概率确定为正确的数据和错误的数据，中间有一些比较难以确认的数据再进行筛选，再挑选出正样本和负样本，从而大幅度减少人工，通过这种方式挑选出来的正样本和负样本的准确率很高，通过迁移学习和自动设置阈值的方法，可以快速而且可靠的对数据进行清洗。

技术领域

本申请涉及计算机技术领域，尤其涉及一种清洗数据的方法和装置。

背景技术

随着计算机科学与技术的发展，深度学习越来越广泛地应用于我们的生活中。数据对于深度学习就像动力能源对于机器，没有数据，再好的深度学习模型也发挥不了作用。获取数据的一个重要的方式是网络爬虫，但是网上爬下来的数据会包含大量错误，这也就给数据清洗工作人员带来很大的工作量。

卷积神经网络目前正大量用于图像分类，图像分类的前提是拥有大量的数据。对于网络爬虫获取的图片，需要进一步的清洗，目前常用的清洗方法有：

(1)人工清洗

人工清洗的方法是目前数据清洗中最常用的一种方法，该方法主要通过人工识别的方式从大量的数据中清洗去除掉错误的图像。

但人工清洗方法，主要缺点是需要的人力成本比较大，速度慢。

(2)通过md5去重或者图像相似度算法去除相似图像

通过去重和去相似图像算法能够去除掉一些重复数据或差别很小的数据。

但本方法主要缺点是只能去除一些重复的或者相似的图像，没有能真正完成数据清洗。

(3)基于多次深度学习训练迭代的清洗