[发明专利]基于深度时空条件随机场的多人头部朝向估计方法有效
申请号: | 201910524579.4 | 申请日: | 2019-06-18 |
公开(公告)号: | CN110276391B | 公开(公告)日: | 2021-08-03 |
发明(设计)人: | 王振华;熊战胜;王铮 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 杭州斯可睿专利事务所有限公司 33241 | 代理人: | 王利强 |
地址: | 310014 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于深度时空条件随机场的多人头部朝向估计方法,包括以下步骤:1)利用YOLO检测人体头部,并缩放为64x64大小的图像,然后将头部图像进行标准化处理;2)训练卷积网络提取头部朝向特征;3)提取头部HoG特征;4)将卷积特征和HoG特征拼接起来形成完整特征,然后基于完整特征训练线性SVM分类器,该分类器所输出的判别分数用于构建一个条件随机场模型;5)构建一个用于多人头部朝向联合识别的条件随机场模型。该条件随机场融合CNN特征、HoG特征以及多人场景的时空语义信息对多人头部朝向进行结构化建模,可以使得多人头部朝向识别的准确度得到显著提升。本发明适用于多人头部朝向的估计。 | ||
搜索关键词: | 基于 深度 时空 条件 随机 人头 朝向 估计 方法 | ||
【主权项】:
1.一种基于深度时空条件随机场的多人头部朝向估计方法,其特征在于,所述方法包括以下步骤:1)利用YOLO检测人体头部,并缩放为64×64大小的图像,然后将头部图像进行标准化处理;2)训练卷积网络提取头部朝向特征,对神经网络的结构表示如下:网络的输入为I(s,s,c),其中c表示输入图像的通道数,s表示输入图像的长和宽,C(k,n)表示对应的卷积核的大小为k×k,n是卷积核的个数;池化层参数用P(p)表示,p表示池化核的尺寸,所有池化均为最大池化;F(e)表示对应的全连接层包含e个神经元;除了最后一个全连接层外,使用ReLU作为各层的激活函数,而对于最后一个全连接层采用Tanh激活函数函数,利用带动量的随机梯度下降训练网络参数;采用倒数第二个卷积层的输出作为头部图像的深度特征;3)提取头部HoG特征,过程为:对于检测到的头部,将每个头部图像划分为8×8的网格;然后对网格中的每一个单元累计6个离散方向的梯度直方图;最后把所有网格单元的梯度直方图拼接成一个384×1的特征向量;4)将卷积特征和HoG特征拼接起来形成完整特征,然后基于整体特征训练线性SVM分类器,该分类器所输出的判别分数用于构建一个条件随机场模型;5)构建一个用于多人头部朝向联合识别的条件随机场模型,基于连续T帧图像估计头部朝向,把这个问题转化为一个判别函数F(x,y,w),对于输入图像序列x,通过求解如下优化问题获得x对应的多人头部方向y:
上式F(x,y,w)定义为:
这里,x=(x1,...,xT)代表包含T帧的图像序列,y=(y1,...,yT)表示T帧图像中所有人体头部的朝向,其中yt表示第t帧中所有人体头部的朝向,w=[w1,w2,w3]是函数的参数,采用结构化支持向量机从大量训练数据中学习获得,对于第t帧图像,考虑其中不同人的头部朝向之间的相关性,采用一个完全无向图Gt=(Vt,Et)表示,这里Vt是图的顶点集合,每个顶点表示所对应的人的头部朝向,Et=Vt×Vt是完全图Gt的边集,特征向量Φ(xt,yt)定义为:
这里
表示第t帧的第i个人,因此,对于任意的(x,y),判别函数F表示为:
对于特征
的定义如下:![]()
表示的是在第t帧中,把第i个人的方向标签判别为
的置信度,这个置信度由步骤4)线性SVM分类器计算得到;
是一个维数为
的指示向量,其第
维为1,其它位置为0,
表示所有头部朝向类别的集合,
表示该集合所含元素的个数,特征
的定义如下:
这里
是一个维数为
的向量,其
的位置为1,其他位置均为0,该特征表示同一场景中的两个人的头部朝向标签之间的兼容性,特征
的定义如下:
该特征表示同一个人的头部朝向随时间的变化。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910524579.4/,转载请声明来源钻瓜专利网。