[发明专利]一种基于计算机的低质量分类图像数据清洗方法有效

申请号：	201710665692.5	申请日：	2017-08-07
公开（公告）号：	CN107423815B	公开（公告）日：	2020-07-31
发明（设计）人：	李玉鑑;余华擎	申请（专利权）人：	北京工业大学
主分类号：	G06N3/04	分类号：	G06N3/04;G06N3/08
代理公司：	北京思海天达知识产权代理有限公司 11203	代理人：	沈波
地址：	100124 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于计算机的低质量分类图像数据清洗方法，可以对从互联网批量收集的低质量分类图像数据进行有效清洗，从而获得更高质量的图像数据，用来训练一个识别率更高的分类模型。具体过程包括：先直接利用低质量分类图像数据训练一个初步的卷积神经网络，再用该网络对数据本身进行识别，清洗掉模型识别为本类的伪概率低到一定程度的图像或数量少于一定程度的图像类别，重复上述过程直到获得所有图像数据类型的识别率达到预设的标准。对比实验说明本发明能够有效提升图像数据的分类质量和识别水平。
搜索关键词：	一种基于计算机质量分类图像数据清洗方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于计算机的低质量分类图像数据清洗方法，其特征在于：本方法包括以下步骤，a)从互联网批量下载带有标签的图像数据，整理得到共计M类的图像数据集DataSet0，其中第i类包含的图像数目为Ni，i＝1,2,3…M；b)用DataSet0训练一个卷积神经网络CNN0，具体步骤如下：i.构建一个卷积神经网络模型，并固定这个网络模型的结构保持不变；ii.对DataSet0随机取一定比例作为卷积神经网络的训练集；iii.将DataSet0中非训练集的部分作为卷积神经网络的测试集；iv.训练CNN0，迭代到指定次数后把网络测试识别率记为Acc0；c)在DataSet0中，对第i类图像构造长度为Ni的一维图像自识别数组Ki，具体步骤如下：i.用CNN0对DataSet0的图像数据进行识别，把其中第i类第j张图像识别为第k类的伪概率记为pijk，k＝1,2,3…M，并将这些伪概率从大到小排序；ii.若排序后的前L个伪概率中存在k＝i，则记自识别率Kij＝pijk，否则记Kij＝0；d)分析自识别数组K，清洗第i类图像数据里的低质量部分：i.计算第i类图像自识别率的平均值：ii.计算第i类图像自识别率的标准差：iii.计算第i类图像“低识别率”的分界值SepVal＝μ‑σ*α，1≤α≤10且为整数，且SepVal>0；iv.第i类图像中，若有Kij<SepVal，则清洗掉第j张图像；清洗完成后得到数据集DataSet1；e)使用DataSet1再次进行同样方式的卷积神经网络训练，得到网络测试识别率Acc1，记录并与Acc0比较并确认清洗是否有效；f)在DataSet1中，重新对第i类图像数量进行统计，记每类图像数量为N'i，对N'i进行分析并清洗少数类别，以减少低质量数据类对卷积神经网络的影响：i.计算当前M类别图像数量的平均值：ii.计算当前M类别图像数量的标准差：iii.计算“少数类”图像数量的分界值SepVal＝μ‑σ*α，1≤α≤10且为整数，且SepVal>0；iv.统计M类图像中类别数量低于SepVal的类别共m类；v.记m类数量总和为sum，M类数量总和为SUM；vi.若m/M远大于sum/SUM，则判定该m类为少数类，需要清洗处理掉；若m/M与sum/SUM数值接近，则认为m类数量正常，无需清洗处理；g)用清洗过后的数据集DataSet2再次进行同样方式的卷积神经网络训练，得到网络测试识别率Acc2，记录并与Acc1比较并确认清洗是否有效；h)根据所得数据集情况，重复步骤(d)和(f)，得到清洗后的数据类别共m′类，m′<M；i)对于清洗后剩余的m′类共sum′张图像数据的质量进行评价：i.获得该m′类在DataSet0里的所有数据，记总数量为SUM′，SUM′>sum′；ii.对总量为SUM′和sum′的m′类图像数据进行同样方式的卷积神经网络训练，得到网络测试识别率Acc(SUM′)和Acc(sum′)，若Acc(SUM′)<Acc(sum′)，则说明清洗后的数据更有利于卷积神经网络的分类训练；iii.从总量为sum′的m′类数据中随机或手动抽取一定的数据test作为公共测试集，以SUM′和sum′中除去test部分的数据作为训练集，进行同样方式的卷积神经网络训练，得到网络测试识别率为Acc(SUM′)和Acc(sum′)；若Acc(SUM′)<Acc(sum′)，则说明对于同样的测试集，使用经过清洗的数据作为训练集训练所得到的卷积神经网络泛化能力更强，测试识别率更高，即数据质量更高。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京工业大学，未经北京工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201710665692.5/，转载请声明来源钻瓜专利网。

上一篇：一种采用深度卷积神经网络建立动态网络模型的方法
下一篇：空气净化器

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于计算机的低质量分类图像数据清洗方法有效

专利文献下载