[发明专利]一种样本数据清洗方法及系统有效
申请号: | 201910239561.X | 申请日: | 2019-03-27 |
公开(公告)号: | CN111651433B | 公开(公告)日: | 2023-05-12 |
发明(设计)人: | 熊杰成 | 申请(专利权)人: | 上海铼锶信息技术有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/953;G06F16/50 |
代理公司: | 杭州钤韬知识产权代理事务所(普通合伙) 33329 | 代理人: | 罗国新;唐灵 |
地址: | 201615 上海市松江区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 样本 数据 清洗 方法 系统 | ||
1.一种样本数据清洗方法,其特征在于,所述方法包括步骤:
S1、提供一测试图片集,根据一神经网络模型,对所述测试图集进行训练,获取每一张测试图片所对应的多维测试特征向量;
S2、从所述测试图片集中选取k张典型图片,并根据所述神经网络模型,对所述典型图片进行训练,获取每一张典型图片所对应的多维参考特征向量;
S3、根据K最近邻算法、所述多维测试特征向量和多维参考特征向量,生成正样本测试图片集和负样本测试图片集;
S4、根据所述正样本测试图片集和负样本测试图片集,训练得到细粒度二分类器;
S5、根据所述细粒度二分类器对待清洗图片数据进行类别预测,获取每一张待清洗图片数据的类别预测的置信度;
S6、根据一预设的置信度区间及所述每一张待清洗图片数据的类别预测的置信度,进行样本数据清洗;
所述步骤S3包括:
将所述多维参考特征向量标记为其中,k表示典型图片的数量,p表示维数;
将所述多维测试特征向量标记为其中,n表示测试图片的数量,p表示维数;
根据欧式距离,分别计算每一张测试图片与每一张典型图片的距离,公式为:
获取每一张测试图片与每一张典型图片的距离中的最小距离,公式为:
d(Itrain-i)=min{d(Itrain-i,Itest-1),...d(Itrain-i,Itest-k)};
对所有测试图片的最小距离进行排序,公式为:
dsorted=sort{d(Itrain-1),d(Itrain-2),...d(Itrain-n)};
dsorted中选择距离最小的N张测试图片构成正样本测试图片集;
dsorted中选择距离最远的M张测试图片构成负样本测试图片集。
2.如权利要求1所述的样本数据清洗方法,其特征在于,所述测试图片集获取的步骤包括:
利用网络爬虫,获取初始测试图片集;
根据一预设的粗粒度二分类器,对所述初始测试图片集进行训练,获取所述测试图片集。
3.如权利要求2所述的样本数据清洗方法,其特征在于,所述步骤S3还包括:所述M和N的取值一样,并且所述测试集图片的数量大于2N。
4.如权利要求1所述的样本数据清洗方法,其特征在于,所述步骤S4还包括:根据一预设的粗粒度二分类器,对所述待清洗数据进行训练,获取待清洗的初始数据。
5.如权利要求1所述的样本数据清洗方法,其特征在于,所述步骤S6包括:
设置一置信度区间;
根据所述每一张待清洗图片数据的类别预测的置信度及所述置信度区间,将所述待清洗图片数据归类到对应的置信度集合。
6.如权利要求5所述的样本数据清洗方法,其特征在于,所述步骤S6包括:
获取置信度等级达到预设等级的置信度集合中的图片数据作为正样本图片数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海铼锶信息技术有限公司,未经上海铼锶信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910239561.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种脱硫液重金属处理装置
- 下一篇:一种样本数据清洗方法及系统
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置