[发明专利]一种基于时空掩码重建的骨架检测模型的构建方法在审
申请号: | 202310111117.6 | 申请日: | 2023-01-30 |
公开(公告)号: | CN116071499A | 公开(公告)日: | 2023-05-05 |
发明(设计)人: | 项乐宏;王翀;夏银水;李裕麒;戴鑫淼 | 申请(专利权)人: | 乐歌人体工学科技股份有限公司 |
主分类号: | G06T17/00 | 分类号: | G06T17/00;G06V10/774;G06V40/10;G06V10/82 |
代理公司: | 浙江中桓凯通专利代理有限公司 33376 | 代理人: | 刘潇 |
地址: | 315100 浙江省宁波市鄞州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 时空 掩码 重建 骨架 检测 模型 构建 方法 | ||
1.一种基于时空掩码重建的骨架检测模型的构建方法,其特征在于,所述构建方法包括:
S100:获取被打标签的t张训练图像,对t张所述训练图像进行的所述打标签是指,将每张所述训练图像的人体骨架关键点坐标和每张所述训练图像建立对应关系,t张所述训练图像可组成连续的t帧训练视频;
S200:训练网络将t张所述训练图像划分为多个时空立方体,并对部分所述时空立方体进行遮掩,获取多个未遮掩时空立方体,并记录多个所述未遮掩时空立方体对应的正确位置,对部分所述时空立方体进行遮掩是指,忽略被遮掩的部分所述时空立方体的信息;
S300:将多个所述未遮掩时空立方体输入编码器,获取多个低维度的特征表示;
S400:将多个所述低维度的特征表示和多个所述正确位置输入解码器,获取高维度的t幅训练热力图;
S500:将所述标签转化为t幅正确热力图,计算t幅所述训练热力图和t幅所述正确热力图的损失;
S600:根据所述损失优化所述训练网络的参数;
S700:获取多个带有标签的t张所述训练图像,循环所述S200至所述S600的步骤,迭代至损失收敛,完成训练,将所述训练网络的参数固定,由此构建骨架检测模型;
其中,t为大于或等于2的整数。
2.根据权利要求1所述的构建方法,其特征在于,在所述S100之前,还包括:
获取带有标签的训练视频,从所述训练视频中抽取t张所述训练图像,对所述训练视频打标签是指,将所述训练视频中每帧的人体骨架关键点坐标和所述训练视频的每帧建立对应关系。
3.根据权利要求1所述的构建方法,其特征在于,所述训练图像为RGB图像;或,所述训练图像为深度图像。
4.根据权利要求1所述的构建方法,其特征在于,t张所述训练图像包括H×W×t个像素;
其中,H为每张所述训练图像的高度,W为每张所述训练图像的宽度,t为所述训练图像的数量。
5.根据权利要求1至4中任一项所述的构建方法,其特征在于,所述编码器和所述解码器均为Vision Transformer网络结构。
6.根据权利要求5所述的构建方法,其特征在于,所述编码器包括编码器全连接层和Transformer blocks,所述S300包括:
将多个所述未遮掩时空立方体输入所述编码器全连接层进行线性映射后,再输入所述Transformer blocks中,得到多个所述特征表示。
7.根据权利要求6所述的构建方法,其特征在于,所述解码器包括解码器全连接层和reshape,所述S400包括:
将多个所述低维度的特征表示和多个所述正确位置输入所述解码器全连接层进行线性映射后,再输入所述reshape中,得到所述t幅训练热力图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于乐歌人体工学科技股份有限公司,未经乐歌人体工学科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310111117.6/1.html,转载请声明来源钻瓜专利网。