[发明专利]一种基于计算机的低质量分类图像数据清洗方法有效
申请号: | 201710665692.5 | 申请日: | 2017-08-07 |
公开(公告)号: | CN107423815B | 公开(公告)日: | 2020-07-31 |
发明(设计)人: | 李玉鑑;余华擎 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于计算机的低质量分类图像数据清洗方法,可以对从互联网批量收集的低质量分类图像数据进行有效清洗,从而获得更高质量的图像数据,用来训练一个识别率更高的分类模型。具体过程包括:先直接利用低质量分类图像数据训练一个初步的卷积神经网络,再用该网络对数据本身进行识别,清洗掉模型识别为本类的伪概率低到一定程度的图像或数量少于一定程度的图像类别,重复上述过程直到获得所有图像数据类型的识别率达到预设的标准。对比实验说明本发明能够有效提升图像数据的分类质量和识别水平。 | ||
搜索关键词: | 一种 基于 计算机 质量 分类 图像 数据 清洗 方法 | ||
【主权项】:
一种基于计算机的低质量分类图像数据清洗方法,其特征在于:本方法包括以下步骤,a)从互联网批量下载带有标签的图像数据,整理得到共计M类的图像数据集DataSet0,其中第i类包含的图像数目为Ni,i=1,2,3…M;b)用DataSet0训练一个卷积神经网络CNN0,具体步骤如下:i.构建一个卷积神经网络模型,并固定这个网络模型的结构保持不变;ii.对DataSet0随机取一定比例作为卷积神经网络的训练集;iii.将DataSet0中非训练集的部分作为卷积神经网络的测试集;iv.训练CNN0,迭代到指定次数后把网络测试识别率记为Acc0;c)在DataSet0中,对第i类图像构造长度为Ni的一维图像自识别数组Ki,具体步骤如下:i.用CNN0对DataSet0的图像数据进行识别,把其中第i类第j张图像识别为第k类的伪概率记为pijk,k=1,2,3…M,并将这些伪概率从大到小排序;ii.若排序后的前L个伪概率中存在k=i,则记自识别率Kij=pijk,否则记Kij=0;d)分析自识别数组K,清洗第i类图像数据里的低质量部分:i.计算第i类图像自识别率的平均值:ii.计算第i类图像自识别率的标准差:iii.计算第i类图像“低识别率”的分界值SepVal=μ‑σ*α,1≤α≤10且为整数,且SepVal>0;iv.第i类图像中,若有Kij<SepVal,则清洗掉第j张图像;清洗完成后得到数据集DataSet1;e)使用DataSet1再次进行同样方式的卷积神经网络训练,得到网络测试识别率Acc1,记录并与Acc0比较并确认清洗是否有效;f)在DataSet1中,重新对第i类图像数量进行统计,记每类图像数量为N'i,对N'i进行分析并清洗少数类别,以减少低质量数据类对卷积神经网络的影响:i.计算当前M类别图像数量的平均值:ii.计算当前M类别图像数量的标准差:iii.计算“少数类”图像数量的分界值SepVal=μ‑σ*α,1≤α≤10且为整数,且SepVal>0;iv.统计M类图像中类别数量低于SepVal的类别共m类;v.记m类数量总和为sum,M类数量总和为SUM;vi.若m/M远大于sum/SUM,则判定该m类为少数类,需要清洗处理掉;若m/M与sum/SUM数值接近,则认为m类数量正常,无需清洗处理;g)用清洗过后的数据集DataSet2再次进行同样方式的卷积神经网络训练,得到网络测试识别率Acc2,记录并与Acc1比较并确认清洗是否有效;h)根据所得数据集情况,重复步骤(d)和(f),得到清洗后的数据类别共m′类,m′<M;i)对于清洗后剩余的m′类共sum′张图像数据的质量进行评价:i.获得该m′类在DataSet0里的所有数据,记总数量为SUM′,SUM′>sum′;ii.对总量为SUM′和sum′的m′类图像数据进行同样方式的卷积神经网络训练,得到网络测试识别率Acc(SUM′)和Acc(sum′),若Acc(SUM′)<Acc(sum′),则说明清洗后的数据更有利于卷积神经网络的分类训练;iii.从总量为sum′的m′类数据中随机或手动抽取一定的数据test作为公共测试集,以SUM′和sum′中除去test部分的数据作为训练集,进行同样方式的卷积神经网络训练,得到网络测试识别率为Acc(SUM′)和Acc(sum′);若Acc(SUM′)<Acc(sum′),则说明对于同样的测试集,使用经过清洗的数据作为训练集训练所得到的卷积神经网络泛化能力更强,测试识别率更高,即数据质量更高。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710665692.5/,转载请声明来源钻瓜专利网。
- 上一篇:一种采用深度卷积神经网络建立动态网络模型的方法
- 下一篇:空气净化器