[发明专利]基于卷积神经网络的人脸深度预测方法有效

申请号：	201710183903.1	申请日：	2017-03-24
公开（公告）号：	CN107103285B	公开（公告）日：	2020-03-03
发明（设计）人：	王好谦;章书豪;方璐;王兴政;张永兵;戴琼海	申请（专利权）人：	深圳市未来媒体技术研究院;清华大学深圳研究生院
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/62;G06N3/04
代理公司：	深圳新创友知识产权代理有限公司 44223	代理人：	徐罗艳
地址：	518000 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于卷积神经网络深度预测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于卷积神经网络的人脸深度预测方法，包括生成一人脸深度预测神经网络的步骤，所述生成一人脸深度预测神经网络的步骤包括：搭建具有特定架构的卷积神经网络，所述特定架构是指在卷积层的输出端依次串联规范化操作和激励操作，再在串联了前述两个操作的卷积层上并联k×k的卷积；初始化该卷积神经网络；将RGB人脸图片输入该卷积神经网络，以最小化代价函数为目标进行迭代，以训练形成所述人脸深度预测神经网络。

技术领域

本发明涉及计算机视觉与数字图像处理领域，具体涉及一种基于卷积神经网络的人脸深度预测方法。

背景技术

人脸深度预测，是计算机视觉领域一个新颖且富有挑战性的问题。对人脸进行深度预测是理解整个人脸几何关系的重要组成部分。相应的，这样得到的人脸几何关系能够很好地反映人脸上的器官以及整个人面部的环境，如果能得到较好的人脸面部深度信息，将会对人脸识别问题提供非常大的帮助，同时也助于构建人脸的3D模型，还可协助解决人脸三维重建问题。

但是从一张人脸的RGB图片中预测出整个人脸的深度信息本身是一个具有病态性质的问题，因为在将RGB图像的颜色信息映射成深度值的过程中面临诸多的不确定性。为了解决这一问题，一些现有的方法通过马尔科夫随场来获得深度信息，通过条件随机场来正则化深度图，但是这些方法依赖于图像的水平校准，因而对训练环境比较敏感。而后，随着卷积神经网络(Convolutional Neural Networks，CNN)的提出，有人提出了基于卷积神经网络进行深度预测的方法，这些方法取得了较好的效果，但也存在诸多缺陷和不足，例如：随着卷积网络层数的不断增加会面临梯度消失从而训练不下去的问题；网络训练出的深度图精度较低，图像较为粗糙。

发明内容

本发明的主要目的在于提出一种基于卷积神经网络的人脸深度预测方法，以增强卷积神经网络的学习能力，解决前述现有技术所存在的随着卷积网络层数增加而梯度消失的问题，同时提升深度预测的准确性，以获得更加清晰的深度图。

本发明为达上述目的所提供的一种技术方案如下：

一种基于卷积神经网络的人脸深度预测方法，包括生成一人脸深度预测神经网络的步骤，所述生成一人脸深度预测神经网络的步骤包括：

S1、搭建卷积神经网络，所述卷积神经网络包括多个依次串联的卷积层单元和多个依次串联的反卷积层，并且最末一个卷积层单元的输出端连接于第一个反卷积层的输入端；每个所述卷积层单元包括一个卷积层以及该卷积层输出端依次串联的一规范化操作和一激励操作；每个所述卷积层单元分别并联有一个k×k的卷积，其中k为大于0的整数；

S2、初始化所述卷积神经网络的训练参数；

S3、将用于训练的人脸图片输入到初始化后的卷积神经网络中，以最小化代价函数为目标进行迭代，以生成所述人脸深度预测神经网络；其中，每迭代一次则更新一次所述训练参数。

对于RGB图像而言，卷积层数的增加可以使神经网络更加充分地学习图片的特征，使得图像处理结果更佳，而现有技术中用于训练的神经网络随着层数增加会导致梯度消失而无法收敛，鉴于此，本发明提供的上述人脸深度预测方法，通过搭建前述具有特定架构的卷积神经网络，即通过对每个卷积层后面连接规范化操作和激励操作以提升深层网络的收敛性，但提升收敛性的同时网络学习能力会有所退化且训练速度慢，此时又通过并联k×k的卷积，使网络层间的数据流通更加快捷、流畅同时还无需引入额外的参数、不增加复杂度；

这样一来，不仅解决了因网络层数增加导致梯度消失而无法收敛的问题，还提高了网络的训练速度，从而可以快速地训练层数较多的卷积神经网络；经过训练得到的人脸深度预测神经网络，只要将待预测的RGB人脸图片输入，经过卷积层提取图像特征，再经过反卷积层将图像特征复原成深度图，这样的深度图在三维重建中具有非常重要的应用；另外，由于解决了随着网络层数增加梯度消失、训练速度慢的问题，可以多增加网络层数以追求深度预测的高准确性，从而获得较为清晰的深度图。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于深圳市未来媒体技术研究院;清华大学深圳研究生院，未经深圳市未来媒体技术研究院;清华大学深圳研究生院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710183903.1/2.html，转载请声明来源钻瓜专利网。

上一篇：一种基于遗传变异改进蚁群分类的姿态图像识别方法
下一篇：基于改进最短路径法的欠定盲源分离源信号恢复方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于卷积神经网络的人脸深度预测方法有效

专利文献下载