[发明专利]基于深度时空条件随机场的多人头部朝向估计方法有效

申请号：	201910524579.4	申请日：	2019-06-18
公开（公告）号：	CN110276391B	公开（公告）日：	2021-08-03
发明（设计）人：	王振华;熊战胜;王铮	申请（专利权）人：	浙江工业大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06N3/04;G06N3/08
代理公司：	杭州斯可睿专利事务所有限公司 33241	代理人：	王利强
地址：	310014 浙江省***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：	一种基于深度时空条件随机场的多人头部朝向估计方法，包括以下步骤：1)利用YOLO检测人体头部，并缩放为64x64大小的图像，然后将头部图像进行标准化处理；2)训练卷积网络提取头部朝向特征；3)提取头部HoG特征；4)将卷积特征和HoG特征拼接起来形成完整特征，然后基于完整特征训练线性SVM分类器，该分类器所输出的判别分数用于构建一个条件随机场模型；5)构建一个用于多人头部朝向联合识别的条件随机场模型。该条件随机场融合CNN特征、HoG特征以及多人场景的时空语义信息对多人头部朝向进行结构化建模，可以使得多人头部朝向识别的准确度得到显著提升。本发明适用于多人头部朝向的估计。
搜索关键词：	基于深度时空条件随机人头朝向估计方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于深度时空条件随机场的多人头部朝向估计方法，其特征在于，所述方法包括以下步骤：1)利用YOLO检测人体头部，并缩放为64×64大小的图像，然后将头部图像进行标准化处理；2)训练卷积网络提取头部朝向特征，对神经网络的结构表示如下:网络的输入为I(s，s，c),其中c表示输入图像的通道数，s表示输入图像的长和宽，C(k，n)表示对应的卷积核的大小为k×k，n是卷积核的个数；池化层参数用P(p)表示，p表示池化核的尺寸，所有池化均为最大池化；F(e)表示对应的全连接层包含e个神经元；除了最后一个全连接层外，使用ReLU作为各层的激活函数，而对于最后一个全连接层采用Tanh激活函数函数，利用带动量的随机梯度下降训练网络参数；采用倒数第二个卷积层的输出作为头部图像的深度特征；3)提取头部HoG特征，过程为：对于检测到的头部，将每个头部图像划分为8×8的网格；然后对网格中的每一个单元累计6个离散方向的梯度直方图；最后把所有网格单元的梯度直方图拼接成一个384×1的特征向量；4)将卷积特征和HoG特征拼接起来形成完整特征，然后基于整体特征训练线性SVM分类器，该分类器所输出的判别分数用于构建一个条件随机场模型；5)构建一个用于多人头部朝向联合识别的条件随机场模型，基于连续T帧图像估计头部朝向，把这个问题转化为一个判别函数F(x，y，w)，对于输入图像序列x，通过求解如下优化问题获得x对应的多人头部方向y：上式F(x，y，w)定义为：这里，x＝(x₁，...，x_T)代表包含T帧的图像序列，y＝(y₁，...，y_T)表示T帧图像中所有人体头部的朝向，其中y_t表示第t帧中所有人体头部的朝向，w＝[w₁，w₂，w₃]是函数的参数，采用结构化支持向量机从大量训练数据中学习获得，对于第t帧图像，考虑其中不同人的头部朝向之间的相关性，采用一个完全无向图G_t＝(V_t，E_t)表示，这里V_t是图的顶点集合，每个顶点表示所对应的人的头部朝向，E_t＝V_t×V_t是完全图G_t的边集，特征向量Φ(x_t，y_t)定义为：这里表示第t帧的第i个人，因此，对于任意的(x，y)，判别函数F表示为：对于特征的定义如下：表示的是在第t帧中，把第i个人的方向标签判别为的置信度，这个置信度由步骤4)线性SVM分类器计算得到；是一个维数为的指示向量，其第维为1，其它位置为0，表示所有头部朝向类别的集合，表示该集合所含元素的个数，特征的定义如下：这里是一个维数为的向量，其的位置为1，其他位置均为0，该特征表示同一场景中的两个人的头部朝向标签之间的兼容性，特征的定义如下：该特征表示同一个人的头部朝向随时间的变化。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙江工业大学，未经浙江工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910524579.4/，转载请声明来源钻瓜专利网。

上一篇：一种第三方食品检测机构综合信息处理系统及方法
下一篇：基于局部表示系数的最近邻分类装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于深度时空条件随机场的多人头部朝向估计方法有效

专利文献下载