[发明专利]深度学习网络的训练方法、装置、设备和存储介质在审

申请号：	201910471729.X	申请日：	2019-05-31
公开（公告）号：	CN110334599A	公开（公告）日：	2019-10-15
发明（设计）人：	刘思阳	申请（专利权）人：	北京奇艺世纪科技有限公司
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/62
代理公司：	北京华夏泰和知识产权代理有限公司 11662	代理人：	孟德栋
地址：	100080 北京市海淀区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	图像预测图像最大点像素存储介质损失函数图像综合学习归一化处理网络输出网络执行鞍点导数预设平坦网络惩罚
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种深度学习网络的训练方法、装置、设备和存储介质。该方法包括：获取真值图像以及深度学习网络输出的所述真值图像对应的预测图像；计算所述真值图像的像素值最大点和所述预测图像的像素值最大点之间的距离；对所述距离执行归一化处理，得到图像基本损失；根据所述图像基本损失，确定图像综合损失，以便根据所述图像综合损失对所述深度学习网络执行训练。本发明计算真值图像和预测图像之间的像素值最大点距离；并且利用预设的指数损失函数，确定图像基本损失，增强了对全零图像的惩罚，使得损失函数的导数不那么平坦，不容易陷入局部最优，避免出现鞍点的问题。

技术领域

本发明涉及计算机技术领域，尤其涉及一种深度学习网络的训练方法、装置、设备和存储介质。

背景技术

随着科技的不断进步，深度学习网络逐渐兴起。在图像处理领域中，该深度学习网络作为一种运算模型，可以对图像中的特征进行提取，例如：深度学习网络可以用于人体关键点识别，人形进行分割等。

目前，在使用深度学习网络之前，需要对深度学习网络进行训练，在训练过程中，通过对深度学习网络进行不断的调整，使得深度学习网络能够预测出准确的图像信息。但是，在训练深度学习网络时，由于深度学习网络的复杂性，导致训练过程中容易出现图像陷入局部最优(鞍点)的情况发生，也即是说，深度学习网络处理的图像的损失梯度不明显，损失函数对像素全零图像的惩罚较小，这样即便深度学习网络输出像素全零的图像，得到的图像损失依旧很小。如果训练僵持在局部最优，针对损失梯度不明显的图像，深度学习网络将会一直输出像素全零的图像，无法达到全局最优，即无法输出准确的图像信息。

例如：如图1所示，为人体关键点的真值热度图，图1中心的白点的像素值为1，白点周围的灰点的像素值处于0～1之间，其余黑点的像素值为0。热度图陷于鞍点的情况即是：深度学习网络输出的预测热度图为像素值全0的全黑的热度图，这是由于真值热度图的损失梯度不明显，真值热度图和深度学习网络输出的预测热度图之间的损失很小，而现有的损失函数对全零热度图的惩罚较小，无法得到正确的预测热度图，这样深度学习网络在训练时很容易陷在全零的局部最优。

发明内容

本发明的主要目的在于提供一种深度学习网络的训练方法、装置、设备和存储介质，以解决现有在执行多任务学习时，容易出现图像陷于鞍点的问题。

针对上述技术问题，本发明是通过以下技术方案来解决的：

本发明提供了一种深度学习网络的训练方法，包括：获取真值图像以及深度学习网络输出的所述真值图像对应的预测图像；计算所述真值图像的像素值最大点和所述预测图像的像素值最大点之间的距离；对所述距离执行归一化处理，得到图像基本损失；根据所述图像基本损失，确定图像综合损失，所述图像综合损失用于对所述深度学习网络执行训练。

其中，所述根据所述图像基本损失，确定图像综合损失，包括：将所述图像基本损失，确定为所述图像综合损失；或者，利用预设的损失函数，确定图像补充损失；计算所述图像基本损失和所述图像补充损失的加权和，将所述加权和确定为所述图像综合损失。

其中，所述真值图像为真值热度图；所述预测图像为预测热度图；所述获取真值图像以及深度学习网络输出的所述真值图像对应的预测图像，包括：获取同一个图像对应的多个真值热度图以及深度学习网络输出的每个真值热度图对应的预测热度图；或者，获取多个图像中每个图像对应的多个真值热度图以及深度学习网络输出的每个真值热度图对应的预测热度图。

其中，所述计算所述真值图像的像素值最大点和所述预测图像的像素值最大点之间的距离，包括：确定各个真值热度图的像素值最大点的坐标，以及各个预测热度图的像素值最大点的坐标；根据所述各个真值热度图的像素值最大点的坐标，以及所述各个预测热度图的像素值最大点的坐标，计算相互对应的真值热度图和预测热度图的像素值最大点之间的距离。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京奇艺世纪科技有限公司，未经北京奇艺世纪科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910471729.X/2.html，转载请声明来源钻瓜专利网。

上一篇：一种掌纹识别方法和装置
下一篇：一种多特征融合驾驶员异常表情识别方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]深度学习网络的训练方法、装置、设备和存储介质在审

专利文献下载