[发明专利]图像数据清洗方法、图像处理方法及装置在审
申请号: | 201910629492.3 | 申请日: | 2019-07-12 |
公开(公告)号: | CN110321971A | 公开(公告)日: | 2019-10-11 |
发明(设计)人: | 申万祥;韦润民;谢彦博;李阳 | 申请(专利权)人: | 北京迈格威科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京钲霖知识产权代理有限公司 11722 | 代理人: | 冯志云;李志新 |
地址: | 100190 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 比对 相似度 图像数据 清洗 待测图像 基础图像 图像处理 图像一致性 比对步骤 获取条件 精细比较 阈值比较 预设 | ||
本公开提供了一种图像数据清洗方法、图像处理方法及装置。其中图像数据清洗方法包括:比对步骤,将一个或多个待测图像与一个基础图像集中的全部基础图像分别比较,得到比对相似度;获取条件占比步骤,将每个比对相似度与比对阈值的比对,得到一个或多个待测图像的条件占比,其中,条件占比为:比对相似度高于比对阈值的数量与全部相似度的数量之间的比值;清洗步骤,根据条件占比与预设比值,将一个或多个待测图像并入基础图像集中。通过比对获取相似度并通过与阈值比较结果的条件占比做出精细比较,从而提高图像数据集中的图像一致性,并且提高清洗的准确性。
技术领域
本公开一般地涉及图像识别领域,具体涉及一种图像数据清洗方法。
背景技术
数据清洗是算法提升的重要一环,数据清洗包括拆分、关联聚合、重新分组、剔除等等操作,高质量的数据集可以确保模型能够走向正确的收敛方向,以保证数据集中数据的一致性。
在图像识别领域中,高质量的数据集要求每个目标(id)的一个数据集下的图片尽可能的多样性,如人脸的相似度方差尽可能的大,理想的数据应该包含各种场景、道具亦或者跨年龄等等,来提高模型的鲁棒性。然而多样性的数据采集、收集可能会引入错误的数据(脏数据)或者发生不恰当的分组。因此图像识别中的数据的情况,可以分为案例一:一个目标的分组下有若干个图为非该目标的图而是其他目标的图;案例二:多个数据集合均是一个目标,但是没有聚合在一起,造成分裂或者有小号的问题,也就是一个目标的图分为了多个组。
发明内容
为了解决现有技术中存在的上述问题,本公开的第一方面提供一种图像数据清洗方法,其中,方法包括:比对步骤,将一个或多个待测图像与一个基础图像集中的全部基础图像分别比较,得到比对相似度;获取条件占比步骤,将每个比对相似度与比对阈值的比对,得到一个或多个待测图像的条件占比,其中,条件占比为:比对相似度高于比对阈值的数量与全部相似度的数量之间的比值;清洗步骤,根据条件占比与预设比值,将一个或多个待测图像并入基础图像集中。
在一例中,在比对步骤之前和/或清洗步骤之后,方法还包括:图像获取步骤,根据基础图像集的标准图像,得到一个或多个待测图像。
在一例中,图像获取步骤包括:图像筛选步骤,将基础图像集中的全部图像分别与基础图像集的标准图像比较相似度,得到筛选相似度,将筛选相似度低于或等于筛选阈值的图像作为待测图像。
在一例中,图像获取步骤包括:图像集初选步骤,将初选图像集的初选标准图像与基础图像集的标准图像比较相似度,得到图像集初选相似度,如图像集初选相似度高于图像集初选阈值,则将初选图像集中的全部图像作为待测图像。
在一例中,图像获取步骤包括:图像初选步骤,将初选图像与基础图像集的标准图像比较相似度,得到初选相似度,如初选相似度高于初选阈值,则初选图像作为待测图像。
在一例中,比对阈值包括第一比对阈值和第二比对阈值,预设比值包括第一预设比值和第二预设比值,其中第一比对阈值大于第二比对阈值,第一预设比值小于第二预设比值;获取条件占比步骤包括:根据比对相似度分别与第一比对阈值和第二比对阈值的比对,分别得到一个或多个待测图像的第一条件占比和第二条件占比;清洗步骤包括:将第一条件占比高于第一预设比值,且第二条件占比高于第二预设比值的一个或多个待测图像并入基础图像集中。
本公开的第二方面提供一种图像处理方法,包括:图像识别步骤,识别图像中的目标;聚合步骤,基于目标,将图像分组形成图像集;数据清洗步骤,根据第一方面的图像数据清洗方法,对图像和/或图像集进行数据清洗。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京迈格威科技有限公司,未经北京迈格威科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910629492.3/2.html,转载请声明来源钻瓜专利网。