[发明专利]一种人体图像关键点姿态估计方法在审
申请号: | 201911135090.4 | 申请日: | 2019-11-19 |
公开(公告)号: | CN111160085A | 公开(公告)日: | 2020-05-15 |
发明(设计)人: | 孙哲南;赫然;侯峦轩;马鑫 | 申请(专利权)人: | 天津中科智能识别产业技术研究院有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06K9/32;G06N3/04 |
代理公司: | 天津市三利专利商标代理有限公司 12107 | 代理人: | 韩新城 |
地址: | 300457 天津市滨海新区天津经济技*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 人体 图像 关键 姿态 估计 方法 | ||
1.人体图像关键点姿态估计方法,其特征在于,包括步骤:
S1.图像数据预处理:
首先将原始图像送入训练好的基于空洞卷积的特征金字塔网络DetectionNet检测,只输出人体用边界框标记的人体图像;然后将输出的人体图像裁剪成预定格式大小,然后进行数据增强处理;
S2.利用训练输入数据,训练融合空洞卷积Dilated conv的神经网络的人体图像关键点姿态估计模型,得到能够对人体图像进行姿态估计以得到人体固件关键点图像的深度神经网络模型:
利用步骤S1中已裁剪完的人体图像作为网络的输入,以训练集中的用x、y轴坐标形式标出的json文件作为人体关键点标注信息像作为GroundTruth,训练深度神经网络模型中的全局网络和矫正网络,获得训练好的完成从人体图像到人体关键点图像的姿态估计的深度神经网络模型;
其中,通过全局网络的ResNet101网络对输入人体图像处理,得到不同尺寸的特征图输出,采用自底向上的U-Shape结构,将每一层特征图进行自底向上做采样后进行加和后进行预测操作;其中,用与GroudTruth进行L2损失函数计算以进行损失约束;通过预测操作进行预定卷积步骤处理后,生成不同关键点的热力图,从而得到初始人体关键点;
将全局网络中每一层加和的特征图,通过Dilated Bottleneck后分别进行上采样,然后进行concat操作后通过Bottleneck,并采用基于难检测关键点的L2*损失约束,随后通过卷积进行热力图生成,修正初始的人体关键点,得到最终的人体关键点;模型迭代多次稳定后,完成模型训练;
S3.使用训练好的深度神经网络模型,对测试数据集中的包含人体的图像进行姿态估计处理。
2.根据权利要求1所述人体图像关键点姿态估计方法,其特征在于,所述特征金字塔网络采用预定数据增强方法处理图片,并对特征金字塔网络的后两个阶段进行修改以针对于目标检测,并将检测后人体图像裁剪后输入;具体为:
采用Resnet50为骨干网络进行特征提取,使用标准高斯分布随机初始化ResNet50网络;
根据Resnet50提取的特征,保留阶段1-4的4个尺度特征图P2,P3,P4,P5,并通过连接卷积核大小为1*1的卷积核,增加阶段5,特征图为P6的特征图;
阶段4以后保持特征图空间分辨率不变,即其中代表空间分辨率,i为原始图尺寸,x∈[i,2,3,4,5,6],在P4 P5 P6,之间通过连接卷积核大小为1*1的卷积核,以保持通道数一致;
最后将阶段4-6特征图按照金字塔架构加和形成特征金字塔,并采用Fast RCNN方法进行目标检测,并通过回归损失和分类损失约束;分类损失和回归损失融合、分类损失采用log loss,回归的loss和R-CNN一致;总损失函数如下:
检测网络最后的全连接层接入两个分支,一个是softmax,用于对每个ROI(ROI,regionof interest)区域分类,用候选区域方法(region proposal method)创建目标检测的感兴趣区域(ROI)。在选择性搜索(selective search,SS)中,我们首先将每个像素作为一组。然后,计算每一组的纹理,并将两个最接近的组结合起来。但是为了避免单个区域吞噬其他区域,我们首先对较小的组进行分组。我们继续合并区域,直到所有区域都结合在一起。下图第一行展示了如何使区域增长,第二行中的蓝色矩形代表合并过程中所有可能的ROI,输出结果p=(p0………pk),另一个是boundingbox,用于ROI区域定位,输出代表k类的boundingbox坐标,(x,y)为boundingbox左上角坐标,(x+w,y+h)为boundingbox右下角坐标,u为每个ROI区域的Ground Truth,v为boundingbox的Ground Truth的回归目标,λ为超参数,控制两个任务损失之间平衡,λ=1;
分类损失为为一个log形式的损失函数;
回归损失为
其中,v=vx,vy,vw,vh是类别为u的真实框的位置,为类为u的预测框位置,且
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津中科智能识别产业技术研究院有限公司,未经天津中科智能识别产业技术研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911135090.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数控热熔焊接机
- 下一篇:基于深度聚类的车辆鸣笛声分类方法及系统
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序