[发明专利]一种清洗数据的方法和装置在审
申请号: | 201810721515.9 | 申请日: | 2018-07-06 |
公开(公告)号: | CN109241397A | 公开(公告)日: | 2019-01-18 |
发明(设计)人: | 徐兴 | 申请(专利权)人: | 四川斐讯信息技术有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/215;G06N3/04;G06N3/08 |
代理公司: | 成都硕荟知识产权代理事务所(特殊普通合伙) 51272 | 代理人: | 刘桂芝 |
地址: | 610100 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本申请公开一种清洗数据的方法和装置,在对数据清洗的过程中,先挑出待清洗数据中大概率确定为正确的数据和错误的数据,中间有一些比较难以确认的数据再进行筛选,再挑选出正样本和负样本,从而大幅度减少人工,通过这种方式挑选出来的正样本和负样本的准确率很高,通过迁移学习和自动设置阈值的方法,可以快速而且可靠的对数据进行清洗。 | ||
搜索关键词: | 清洗 方法和装置 负样本 正样本 概率确定 数据清洗 自动设置 准确率 迁移 筛选 申请 学习 | ||
【主权项】:
1.一种清洗数据的方法,其特征在于,包括:对多类数据进行清洗得到正确数据和错误数据;对所述正确数据进行训练,得到训练之后的第一训练模型;对某一待清洗数据先进行去重和以相似度阈值进行去相似度得到第一剩余待清洗数据;按照指定的规则从所述第一剩余待清洗数据挑选出至少一个正样本、至少一个负样本和第二剩余待清洗数据;对所述至少一个正样本和所述至少一个负样本使用所述第一训练模型做迁移学习得到第二训练模型;根据所述第二训练模型确定第一阈值和第二阈值,其中,所述第一阈值和所述第二阈值用于对数据被判断为正负样本的置信度而设置的,所述第一阈值小于所述第二阈值,所述第一阈值为根据负样本的预设准确度计算所得,所述第二阈值为根据正样本的预设准确度计算所得;使用所述第二训练模型、所述第一阈值和所述第二阈值将所述第二剩余待清洗数据分为正样本、待人工清洗、负样本三个类别,其中,所述第二待清洗数据中置信度大于所述第二阈值的数据判断为正样本类数据,置信度小于所述第一阈值的数据判断为负样本类数据,置信度在所述第一阈值和所述第二阈值之间的数据成判断为待人工清洗类数据。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川斐讯信息技术有限公司,未经四川斐讯信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810721515.9/,转载请声明来源钻瓜专利网。