[发明专利]一种基于深度学习技术的计算机视觉的实时多人姿态估计方法有效
申请号: | 202010239278.X | 申请日: | 2020-03-30 |
公开(公告)号: | CN111428664B | 公开(公告)日: | 2023-08-25 |
发明(设计)人: | 徐绍凯 | 申请(专利权)人: | 厦门瑞为信息技术有限公司 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V10/82;G06V10/46;G06N3/0464;G06N3/084 |
代理公司: | 厦门创象知识产权代理有限公司 35232 | 代理人: | 叶秀红 |
地址: | 361000 福建省厦门市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 技术 计算机 视觉 实时 姿态 估计 方法 | ||
1.一种基于深度学习技术的计算机视觉的实时多人姿态估计方法,其特征在于:包括以下步骤:
获取摄像头采集的当前帧图像,并进行归一化操作;
使用预训练的神经网络模型与后处理算法对当前帧图像进行多人姿态估计,得到图像中所有人的人体关键点和人体骨架;
其中,所述神经网络模型与后处理算法对当前帧图像进行多人姿态估计,具体为:
所述神经网络模型的主干网络为ResNet50结构,输入大小为宽576、高320,使用ResNet50的卷积部分提取多尺度特征,分别从ResNet50的四个残差组结构获得四种大小的feature maps;接着将第一组feature maps进行2倍上采样后与第二组feature maps按通道拼接,前两组拼接后的feature maps经过卷积层与2倍上采样层后与第三组featuremaps按通道拼接,前三组拼接后的feature maps经过卷积层与2倍上采样层后与第四组feature maps按通道拼接;将第一组feature maps经过四个bottleneck结构后进行8倍上采样,将上述前两组拼接后的feature maps经过卷积层融合后再经过三个bottleneck结构后进行4倍上采样,将上述前三组拼接后的feature maps经过卷积层融合后再经过两个bottleneck结构后进行2倍上采样,将前四组拼接后的feature maps经过卷积层融合后再经过一个bottleneck结构,最后将8倍上采样、4倍上采样、2倍上采样和最后一个bottleneck结构输出的feature maps按照通道进行拼接,经过卷积层后得到输出featuremaps,通道数为35,宽为144,高为80;
使用后处理算法对神经网络模型输出的feature maps进行后处理;取输出featuremaps第一个通道的144*80个数据,对每个值求sigmoid函数值,根据提前设定的阈值,找到144*80个sigmoid输出值中大于阈值的值及其位置,并将所有满足条件的点进行点的非极大值抑制,经过非极大值抑制以后剩余的满足条件的点为输入图像中每个人体的中心点;取feature maps第二通道的144*80个数据,将人体中心点作为第一个人体关键点的父节点,找到二维矩阵中每个父节点坐标处的值,该值与人体中心点的横坐标值相加得出第一个人体关键点的横坐标;从feature maps第三个通道的144*80个数据,找到该二维矩阵中第一个人体关键点父节点坐标处的值,该值与人体中心点的纵坐标相加得出第一个人体关键点的纵坐标;同样的方法,第一个人体关键点为第二个人体关键点的父节点,根据feature maps第四、五个通道的数据,得出第二个人体关键点的横纵坐标;所有人体关键点中父节点关系为:中心点-第一个关键点-第二个关键点-第三个关键点,中心点-第四个关键点-第五个关键点-第六个关键点,中心点-第七个关键点-第八个关键点-第九个关键点,中心点-第十个关键点-第十一个关键点-第十二个关键点-第十三个关键点,中心点-第十四个关键点-第十五个关键点-第十六个关键点-第十七个关键点;根据所有人体关键点父节点对应关系,应用上述方法,从feature maps中依次得出每个人体关键点的横纵坐标;根据图像原大小和宽144*高80的对应倍数关系,将每个人体关键点的横纵坐标还原到原图大小;
将十七个人体关键点按照预设的规则进行连接,形成人体骨架。
2.如权利要求1所述的一种基于深度学习技术的计算机视觉的实时多人姿态估计方法,其特征在于:所述获取摄像头采集的当前帧图像,并进行归一化操作,具体为:
从摄像头获取当前帧的RGB图片;
对所述图片使用预设参数进行归一化处理;
将所述图片缩放到宽576*高320。
3.如权利要求2所述的一种基于深度学习技术的计算机视觉的实时多人姿态估计方法,其特征在于:所述神经网络模型的训练方法包括以下步骤:
获取包含人体的训练样本集,所述训练样本集包含每张图片中全部人的人体框及十七个人体关键点的标注信息;
对训练图片和标注信息进行预处理:对训练图片进行随机左右翻转、旋转随机角度、随机缩放和裁剪,随机增强图像色彩、亮度、饱和度以及对比度,最后将图像缩放到576*320像素,根据标注信息中人体框位置计算出人体中心点坐标,将人体中心点和十七个人体关键点坐标根据图片预处理情况进行转换,转换后的人体中心点和十七个人体关键点坐标为预处理后的图片相对值;
根据人体中心点和十七个人体关键点坐标生成神经网络训练标签;首先根据人体中心点坐标生成Center map:生成一个144*80的全0矩阵,根据图中每个人体的中心点坐标将矩阵对应位置及其邻域元素处置1,邻域大小根据人体框大小设定,将该置1区域以邻域半径为高斯核大小进行高斯化,若多个人体中心的邻域有重叠部分,则重叠部分元素取最大值;然后根据十七个人体关键点坐标生成三十四个Heat map:每个关键点对应两个Heat map,分别为该关键点的横坐标Heat map和纵坐标Heat map,横坐标Heat map中,对于某一个关键点A,其父节点为R,则在A的横坐标Heat map上点R位置处的值为点A实际横坐标与点R实际横坐标的差,点R邻域内某点的值为点A实际横坐标与该点横坐标的差,同样的,点A纵坐标Heat map上的点R位置处的值为点A实际纵坐标与点R实际纵坐标的差,点R邻域内某点的值为点A实际纵坐标与该点纵坐标的差;最后,若某个Heat map中有若干个人的关节点邻域有重叠,则重叠区域的取值为所有人取值之和的平均;
使用预处理后的图片和训练标签训练神经网络模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门瑞为信息技术有限公司,未经厦门瑞为信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010239278.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种车载无人机起降方法
- 下一篇:电梯运行控制方法、装置及电梯