[发明专利]用于高性能人脸识别系统的高质量训练数据准备系统有效

专利信息
申请号: 201810281860.5 申请日: 2018-04-02
公开(公告)号: CN108319938B 公开(公告)日: 2022-05-17
发明(设计)人: 易子立;王星;吴谦伟;马怀宇;梁杰 申请(专利权)人: 奥瞳系统科技有限公司
主分类号: G06V40/16 分类号: G06V40/16;G06V40/50;G06V10/774;G06K9/62
代理公司: 深圳中细软知识产权代理有限公司 44528 代理人: 袁文英
地址: 加拿大不列颠哥伦比亚省本拿比市*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 用于 性能 识别 系统 质量 训练 数据 准备
【说明书】:

提供了用于执行大规模人脸图像训练数据采集、预处理、清洗、均衡化和后处理的人脸图像训练数据准备系统的多个示例。公开的训练数据准备系统用于从互联网采集不同的人的大量的标注图像,然后生成包括错误标注人脸图像的原始训练数据集。该训练数据准备系统然后对该原始训练数据集执行清洗和均衡化操作,从而生成不具有错误标注的高质量人脸图像训练数据集。已处理的高质量人脸图像训练数据集随后可用于训练基于深度神经网络的人脸识别系统,从而在多种人脸识别应用中实现高性能。与传统的人脸识别系统和技术相比,本申请公开的训练数据准备系统和技术提供了全自动、高度确定的高质量训练数据准备程序,无需严重依赖于假设条件。

技术领域

本申请一般涉及机器学习和人工智能领域,更具体而言,涉及为高性能人脸识别系统准备标注人脸图像的高质量训练数据集的系统、装置和技术。

背景技术

深度学习(DL)是机器学习和人工神经网络的一个基于一组算法的分支,该算法通过使用具有很多个处理层的人工神经网络来试图建模数据中的高层次抽象。典型的DL架构可包括许多层的神经元和数百万个参数。可以在配备有GPU的高速计算机上用海量数据训练这些参数,并由在深层网络也能适用的新的训练算法来指导,诸如修正线性单元(ReLU)、漏失(或丢弃)、数据集增强,以及随机梯度下降(SGD)。

深度学习已经在许多人工智能和机器学习领域,诸如人脸识别、图像分类、图像字幕生成、可视问答以及自动驾驶汽车中取得了巨大成功。由于深度学习的技术进步,尤其是将卷积神经网络(CNN)应用于人脸识别任务的巨大成功,人脸识别应用已成为这些应用中最受推崇并且发展最快的应用之一。基于CNN的人脸识别系统通常用于解决一系列问题,这包括人脸检测,即在输入图像中找出所有的人脸;人脸验证,即确认已检测人脸的声称主体是否为该声称主体本人;人脸识别,即基于该已检测人脸识别该人;以及人脸聚类,即在多个已检测人脸中找出同一个人。

现有的人脸检测技术已经可达到非常高的精确度和可靠度,然而现有人脸识别系统在精确度和可靠度方面依然具有很大的进步空间。在构建成功的人脸识别系统的众多挑战中,如何构建高质量的训练数据集依然是较为关键和困难的挑战之一。一个有效且可靠的人脸识别系统有赖于大规模、多样化并且精确标注的训练数据集。然而,满足这些要求的训练数据集一般都掌握在控制着大量用户数据的少数网络公司手中。因此,人们不得不通过在网络中挖掘大量的可用数据去构建他们自己的训练数据集。

为了完成人脸识别任务,可采用搜索引擎或者网络爬虫从网络中收集人脸图像数据。例如,以名人的姓名作为查询条件通过搜索引擎收集某一名人的图像。因此,从网络中收集的人脸图像数据通常被划分为多组相同标注图像,其中每组标注图像对应于唯一主体的人。然而,从网络中收集的原始人脸图像数据通常是“不干净的”,这是因为每组相同标注图像通常包含不理想的图像,例如标注错误的图像、低质量图像、包含多个人的人脸的图像。虽然可以通过手动“清洗”这些原始数据,以去除这些不良的人脸图像,然而对于大规模原始数据集而言,手动清洗比较昂贵而且效率低。因此,研究人员和工程师已经着手积极开发自动清洗原始训练数据技术,从而有效地从该原始训练数据集中去除“噪声”数据。不乐观地是,现有的训练数据清洗通常基于低水平特征和过度简化的假设对原始训练数据进行过滤,而这些技术产出的结果通常不尽如人意。

发明内容

本申请描述的多个实施例提供了用于执行大规模人脸图像训练数据采集、预处理、清洗、均衡化和后处理的人脸图像训练数据准备系统的多个示例。在一些实施例中,本申请公开的人脸图像训练数据准备系统可以接收包含多种不同类型的不良人脸图像的原始训练数据集。本申请公开的训练数据准备系统然后可以对该原始训练数据集执行清洗和均衡化操作,从而生成不具有该不良人脸图像的高质量人脸图像训练数据集。该已处理的高质量人脸图像训练数据集随后可用于训练基于深度神经网络的人脸识别系统,从而在多种人脸识别应用中实现高性能。与传统的人脸识别系统和技术相比,本申请公开的训练数据准备系统和技术提供了全自动、高度确定的高质量训练数据准备程序,该程序无需严重依赖于假设条件。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于奥瞳系统科技有限公司,未经奥瞳系统科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810281860.5/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top