[发明专利]基于深度时空条件随机场的多人头部朝向估计方法有效
申请号: | 201910524579.4 | 申请日: | 2019-06-18 |
公开(公告)号: | CN110276391B | 公开(公告)日: | 2021-08-03 |
发明(设计)人: | 王振华;熊战胜;王铮 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 杭州斯可睿专利事务所有限公司 33241 | 代理人: | 王利强 |
地址: | 310014 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 时空 条件 随机 人头 朝向 估计 方法 | ||
1.一种基于深度时空条件随机场的多人头部朝向估计方法,其特征在于,所述方法包括以下步骤:
1)利用YOLO检测人体头部,并缩放为64×64大小的图像,然后将头部图像进行标准化处理;
2)训练卷积网络提取头部朝向特征,对神经网络的结构表示如下:
网络的输入为I(s,s,c),其中c表示输入图像的通道数,s表示输入图像的正方形边长,C(k,n)表示对应的卷积核的大小为k×k,n是卷积核的个数;池化层参数用P(p)表示,p表示池化核的尺寸,所有池化均为最大池化;F(e)表示对应的全连接层包含e个神经元;除了最后一个全连接层外,使用ReLU作为各层的激活函数,而对于最后一个全连接层采用Tanh激活函数,利用带动量的随机梯度下降训练网络参数;采用倒数第二个卷积层的输出作为头部图像的深度特征卷积特征;
3)提取头部HoG特征,过程为:对于检测到的头部,将每个头部图像划分为8×8的网格;然后对网格中的每一个单元累计6个离散方向的梯度直方图;最后把所有网格单元的梯度直方图拼接成一个384×1的特征向量;
4)将深度特征卷积特征和HoG特征拼接起来形成完整特征,然后基于完整特征训练线性SVM分类器,该分类器所输出的判别分数用于构建一个条件随机场模型;
5)构建一个用于多人头部朝向联合识别的条件随机场模型,基于连续T帧图像估计头部朝向,把这个问题转化为一个判别函数F(x,y,w),对于输入图像序列x,通过求解如下优化问题获得x对应的多人头部方向y*:
上式F(x,y,w)定义为:
这里,x=(x1,...,xT)代表包含T帧的图像序列,表示T帧图像中所有人体头部的朝向构成的集合,其中yt表示第t帧中所有人体头部的朝向,w=[w1,w2,w3]是函数的参数,采用结构化支持向量机从大量训练数据中学习获得,对于第t帧图像,考虑其中不同人的头部朝向之间的相关性,采用一个完全无向图Gt=(Vt,Et)表示,这里Vt是图的顶点集合,每个顶点表示所对应的人的头部朝向,Et=Vt×Vt是完全图Gt的边集,特征向量Φ(xt,yt)定义为:
这里表示第t帧的第i个人,因此,对于任意的(x,y),判别函数F表示为:
对于特征的定义如下:
表示的是在第t帧中,把第i个人的方向标签判别为的置信度,这个置信度由步骤4)线性SVM分类器计算得到;是一个维数为的指示向量,其第维为1,其它位置为0,表示所有头部朝向类别的集合,表示该集合所含元素的个数,特征的定义如下:
这里是一个维数为的向量,其的位置为1,其他位置均为0,该特征表示同一场景中的两个人的头部朝向标签之间的兼容性,特征的定义如下:
该特征表示同一个人的头部朝向随时间的变化。
2.如权利要求1所述的基于深度时空条件随机场的多人头部朝向估计方法,其特征在于,步骤5)中,为训练w,使用结构化SVM方法,并采用Loopy Belief Propagation解决训练中的推理问题。
3.如权利要求1或2所述的基于深度时空条件随机场的多人头部朝向估计方法,其特征在于,步骤2)中,为得到训练上述网络所需的大规模数据,采用如下数据增广方法:首先水平翻转图像,翻转后的图像的标签由左变为右,然后进行图像的色彩随机变换,接着对变换后的图像采用10度以内的随机旋转,然后对所生成的图像进行5个像素宽度的随机移动,最后将随机噪声添加到头部图像的一个通道中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910524579.4/1.html,转载请声明来源钻瓜专利网。