[发明专利]一种基于混合深度回归网络的多模态的头部姿态估计方法有效
申请号: | 201910078126.3 | 申请日: | 2019-01-28 |
公开(公告)号: | CN109977757B | 公开(公告)日: | 2020-11-17 |
发明(设计)人: | 唐佩军;程深;潘力立 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/46;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 电子科技大学专利中心 51203 | 代理人: | 陈一鑫 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 混合 深度 回归 网络 多模态 头部 姿态 估计 方法 | ||
1.一种基于混合深度回归网络的多模态的头部姿态估计方法,该方法包括:
步骤1:对样本数据集进行预处理,获得样本数据集中各图像的三种模态图像,包括:RGB图像、深度图像、灰度图像,并且标记每幅图像对应的头部姿态标签;
步骤2:对数据集进行特征提取;
首先将各种模态的图像分别进行归一化处理,然后对每一个模态的每一幅输入图像提取HOG特征;
步骤3:对各模态图像提取的HOG特征和头部姿态标签一起进行归一化处理;
步骤4:构建和初始化单模态子网络;
单模态的子网络采用自动编码器网络来构建,训练过程分为无监督的预训练和有监督的微调两个步骤;
步骤4-1:预训练时采用基于自编码器网络的无监督逐层训练算法,如下式所示:
其中:表示矩阵的2-范数,EU表示无监督预训练时的编码器,D为对应的解码器,目的是重构编码器的输入,其中解码器D和编码器EU权值共享,xnk表示在模态k的情况下第n幅图像的特征;模态k下的无监督预训练的代价函数这部分代价来源于图像特征的重构误差,训练时通过最小化代价函数来更新D和EU;
步骤4-2:微调时根据预训练时的网络局部最优参数进行训练,如下式所示:
其中:表示矩阵的2-范数,ES表示有监督微调时的编码器,xnk表示在模态k的情况下第n幅图像的特征,tn为第n个样本的头部姿态的观测值;模态k下的有监督微调的代价函数这部分代价来源于网络输出与标签的均方误差,训练时通过最小化代价函数来更新ES;
步骤5:构建多模态的混合网络;
步骤5-1:训练得到深度回归子网络的多模态混合网络,多模态网络来预测多模态的输入和头部姿态之间的映射关系的混合模型表达式如下:
xnk表示来源于第n个样本在模态k情况下的输入特征,πk(xnk)表示第n个样本的在模态k情况下的混合系数,yk(·)表示训练好的模态k的深度回归子网络模型;
步骤5-2:在概率性框架下将上式改写,得到头部姿态混合模型的参数形式如下:
其中tn为第n个样本的头部姿态的观测值,θ表示模型的每层网络层可训练参数的集合,包括权重参数向量{wk}和偏置参数向量{bk},为模态k的样本各向同性高斯分布的方差,子函数πk(·)为模态k的混合系数,yk(·)表示模态k时的预测函数;表示以yk(xnk)为期望,为方差的随机变量tn的正态分布;
步骤5-3:对于多模态混合网络模型,各子网络层均使用全连接层,设该模型共有L层子网络,前L-1层网络的输出形式如下:
其中,xnk表示第n个样本在模态k情况下的输入特征,也即整个网络的输入,为第l层子网络的权重参数矩阵,为第l层的偏置参数矩阵,为第l层子网络的输出;
混合模型参数通过影响混合系数πk(xnk),模态k情况下的头部姿态预测值yk(xnk),及方差以此影响以xnk作为输入的网络的最终输出,采用如下文所示的函数来训练模型的所有参数,并由此预测网络的最终输出;
混合系数必须满足下面的限制:
为了将混合系数转换为概率值,通过使用softmax输出来实现;设L为网络的最后一层,πk(xnk)为第L层子网络的混合系数的输出,为上一层子网络的输出,为第L层子网络与混合系数有关的一个中间值,为该层子网络与有关的权重参数,为该层子网络与有关的偏置参数;
类似的,方差必须满足:
可以使用对应的网络激活函数的指数形式进行表示,为第L层子网络的方差的输出,为第L层子网络与方差有关的一个中间值,为该层子网络与有关的权重参数,为该层子网络与有关的的偏置参数;
最后,模态k的第n个样本图像的头部姿态的预测值yk(xnk)为实向量,可以直接用网络的输出激活表示,yk(xnk)为第L层子网络的头部姿态估计的输出,为该层子网络与yk(xnk)有关的权重参数,为该层子网络与yk(xnk)有关的的偏置参数;
由此,根据以上步骤计算得到的混合系数,可以选择出对于当前学习任务而言最重要的特征进行头部姿态估计的预测;
步骤5-4:综上步骤5-1到步骤5-3的步骤,对于给定的N个独立的样本数据,可将概率形式下的头部姿态混合模型的似然函数改写为对数形式;当给定输出标签值T和输入观测值X={x1k,...,xNk},k=1,...,K时,则模型的对数似然函数表达式为:
上式可以通过最大似然法确定,或者使用最小化误差函数的方法来确定,误差函数的形式为:
步骤6:多模态混合网络的训练;
训练的目标是最小化误差函数l(θ),若已经得到误差函数关于输出单元的激活函数的导数的表达式,则再通过标准的反向传播方法可以计算误差函数关于各参数分量的导数;我们可以考虑对于特定的样本n的ln(θ)的导数,然后通过求和的方式找到l(θ)的导数;
步骤7:对测试图像进行测试;
当给定一个新的多模态头部姿态图片数据集,假设有t个样本,K种模态,记作{xt1,...,xtK},可以推断出相应的头部姿态为:
其中y表示预测的头部姿态向量值,表示对于不同模态特征的各个头部姿态预测值的期望。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910078126.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种在线活体检测系统
- 下一篇:一种基于云平台管理的人脸识别系统及方法