[发明专利]一种基于混合深度回归网络的多模态的头部姿态估计方法有效

申请号：	201910078126.3	申请日：	2019-01-28
公开（公告）号：	CN109977757B	公开（公告）日：	2020-11-17
发明（设计）人：	唐佩军;程深;潘力立	申请（专利权）人：	电子科技大学
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/46;G06K9/62;G06N3/04;G06N3/08
代理公司：	电子科技大学专利中心 51203	代理人：	陈一鑫
地址：	611731 四川省成***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：	该发明公开了一种基于混合深度回归网络的多模态的头部姿态估计方法，属于机器学习和计算机视觉领域。该方法首先将头部图像转换为多种不同的模态，并从不同模态的头部图像中提取梯度方向直方图特征，其次通过训练不同模态的深度回归网络模型来拟合图像特征与对应的头部姿态估计之间的映射关系，然后借鉴高斯混合密度网络的方法，将训练所得的单模态网络融合为多模态网络，并且同时训练不同图像的混合系数，最后使用混合得到的多模态网络对输入的头部图像进行头部姿态估计。本发明更好的拟合了图像特征与头部姿态估计之间的非线性映射，提高了现有方法的精确度和鲁棒性。
搜索关键词：	一种基于混合深度回归网络多模态头部姿态估计方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于混合深度回归网络的多模态的头部姿态估计方法，该方法包括：步骤1：对样本数据集进行预处理，获得样本数据集中各图像的三种模态图像，包括：RGB图像、深度图像、灰度图像，并且标记每幅图像对应的头部姿态标签；步骤2：对数据集进行特征提取；首先将各种模态的图像分别进行归一化处理，然后对每一个模态的每一幅输入图像提取HOG特征；步骤3：对各模态图像提取的HOG特征和头部姿态标签一起进行归一化处理；步骤4：构建和初始化单模态子网络；单模态的子网络采用自动编码器网络来构建，训练过程分为无监督的预训练和有监督的微调两个步骤；步骤4‑1：预训练时采用基于自编码器网络的无监督逐层训练算法，如下式所示：其中：表示矩阵的2‑范数，E_U表示无监督预训练时的编码器，D为对应的解码器，目的是重构编码器的输入，其中解码器D和编码器E_U权值共享，x_nk表示在模态k的情况下第n幅图像的特征；模态k下的无监督预训练的代价函数这部分代价来源于图像特征的重构误差，训练时通过最小化代价函数来更新D和E_U；步骤4‑2：微调时根据预训练时的网络局部最优参数进行训练，如下式所示：其中：表示矩阵的2‑范数，E_S表示有监督微调时的编码器，x_nk表示在模态k的情况下第n幅图像的特征，t_n表示第n幅图像对应的姿态标签；模态k下的有监督微调的代价函数这部分代价来源于网络输出与标签的均方误差，训练时通过最小化代价函数来更新E_S；步骤5：构建多模态的混合网络；步骤5‑1：训练得到深度回归子网络的多模态混合网络，多模态网络来预测多模态的输入和头部姿态之间的映射关系的混合模型表达式如下：x_nk表示来源于第n个样本在模态k情况下的输入特征，π_k(x_nk)表示第n个样本的在模态k情况下的混合系数，y_k(·)表示训练好的模态k的深度回归子网络模型；步骤5‑2：在概率性框架下将上式改写，得到头部姿态混合模型的参数形式如下：其中t_n为第n个样本的头部姿态的观测值，θ表示模型的每层网络层可训练参数的集合，包括权重参数向量{w_k}和偏置参数向量{bk}，为模态k的样本的各向同性高斯分布的方差，子函数π_k(·)为模态k的混合系数，y_k(·)表示模态k时的预测函数；表示以y_k(x_nk)为期望，为方差的随机变量t_n的正态分布；其中杜为正态分布的数学期望，σ²为正态分布的方差，则称其满足正态步骤5‑3：对于多模态混合网络模型，各子网络层均使用全连接层，设该模型共有L层子网络，前L‑1层网络的输出形式如下：其中，x_nk表示第n个样本在模态k情况下的输入特征，也即整个网络的输入，为第l层子网络的权重参数矩阵，为第l层的偏置参数矩阵，为第l层子网络的输出；混合模型参数通过影响混合系数π_k(x_nk)，模态k情况下的头部姿态预测值y_k(x_nk)，及方差以此影响以x_nk作为输入的网络的最终输出，采用如下文所示的函数来训练模型的所有参数，并由此预测网络的最终输出；混合系数必须满足下面的限制：为了将混合系数转换为概率值，通过使用softmax输出来实现；设L为网络的最后一层，π_k(x_nk)为第L层子网络的混合系数的输出，为上一层子网络的输出，为第L层子网络与混合系数有关的一个中间值，为该层子网络与有关的权重参数，为该层子网络与有关的偏置参数；类似的，方差必须满足：可以使用对应的网络激活函数的指数形式进行表示，σ_k(x_nk)为第L层子网络的方差的输出，为第L层子网络与方差有关的一个中间值，为该层子网络与有关的权重参数，为该层子网络与有关的的偏置参数；最后，模态k的第n个样本图像的头部姿态的预测值y_k(x_nk)为实向量，可以直接用网络的输出激活表示，y_k(x_nk)为第L层子网络的头部姿态估计的输出，为该层子网络与y_k(x_nk)有关的权重参数，为该层子网络与y_k(x_nk)有关的的偏置参数；由此，根据以上步骤计算得到的混合系数，可以选择出对于当前学习任务而言最重要的特征进行头部姿态估计的预测；步骤5‑4：综上步骤5‑1到步骤5‑3的步骤，对于给定的N个独立的样本数据，可将概率形式下的头部姿态混合模型的似然函数改写为对数形式；当给定输出标签值T和输入观测值X＝{x_1k，...，x_Nk}，k＝1，...，K时，则模型的对数似然函数表达式为：上式可以通过最大似然法确定，或者使用最小化误差函数的方法来确定，误差函数的形式为：步骤6：多模态混合网络的训练；训练的目标是最小化误差函数l(θ)，若已经得到误差函数关于输出单元的激活函数的导数的表达式，则再通过标准的反向传播方法可以计算误差函数关于各参数分量的导数；我们可以考虑对于特定的样本n的l_n(θ)的导数，然后通过求和的方式找到l(θ)的导数；步骤7：对测试图像进行测试；当给定一个新的多模态头部姿态图片数据集，假设有t个样本，K种模态，记作{x_t1，...，x_tK}，可以推断出相应的头部姿态为：其中y表示预测的头部姿态向量值，表示对于不同模态特征的各个头部姿态预测值的期望。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于电子科技大学，未经电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910078126.3/，转载请声明来源钻瓜专利网。

上一篇：一种在线活体检测系统
下一篇：一种基于云平台管理的人脸识别系统及方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于混合深度回归网络的多模态的头部姿态估计方法有效

专利文献下载