[发明专利]一种面向智慧工厂的视频动作识别方法及系统在审
申请号: | 202210521070.6 | 申请日: | 2022-05-13 |
公开(公告)号: | CN114898466A | 公开(公告)日: | 2022-08-12 |
发明(设计)人: | 文豪;陆哲明;李浩来;崔家林 | 申请(专利权)人: | 埃夫特智能装备股份有限公司 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V20/52;G06V20/40;G06V10/764;G06V10/32;G06V10/25;G06V10/774;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 北京汇信合知识产权代理有限公司 11335 | 代理人: | 王帅 |
地址: | 241000 安徽省芜湖市中国*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 智慧 工厂 视频 动作 识别 方法 系统 | ||
1.一种面向智慧工厂的视频动作识别方法,其特征在于:具体包括如下步骤:
S101、工厂视频数据片段生成步骤:利用图像预处理技术对工厂工人作业的视频进行处理和加工,将所有原始录像转换为可利用的工厂工人作业数据片段;
S102、工厂工人作业动作数据集生成步骤:将工厂工人作业数据片段打好标签进行归类,将工厂工人作业数据片段制作为可以供动作识别模型学习的数据;
S103、工厂作业目标检测数据集生成步骤:将工人作业视频输出成帧,对图片进行采样,对人、工作台、作业工件类目标进行选框标注;
S104、工厂工人动作识别模型建模方法步骤:将工厂工人作业动作数据集数据集数据通过帧采样,裁切和数据增强后,转化为模型可接受的标准数据序列输入适用与视频理解的3D-ResNet深度神经网络进行模型的训练;
S105、工厂工人位置信息编码网络训练步骤:将工厂作业目标检测数据集经过缩放、归一化类预处理,以及翻转、随机位置、mosaic类数据增强方法后输入目标检测算法进行训练,以使其能提供工人、操作台以及被操作工件的位置信息,然后将位置信息嵌入一个多通道矩阵输入位置编码支路训练;
S106、工厂工人行为识别算法的搭建:将训练好的动作识别模型以及位置信息编码模型尾部输出的深度特征拼接起来,使动作识别网络和位置信息编码网络分别形成动作识别支路和位置信息编码支路,组成包含位置信息编码的反应工人行为的深度特征,再输入一层全连接层并且冻结之前的网络参数进行训练,得到完整的工人工人行为识别模型;
S107、行为识别输入步骤:将需要识别工人行为的视频输入工厂工人行为识别模型;
S108、行为识别输出步骤:基于训练好的工厂工人行为识别模型得到行为预测概率向量,再对比行为类别向量,得到行为识别结果,同时将识别结果通过socket通信方式发送至服务器。
2.根据权利要求1所述的一种面向智慧工厂的视频动作识别方法,其特征在于:所述的步骤S101对工厂工人作业的视频进行处理和加工具体包括:对监控视频流数据进行预处理、标注和归类,将所述监控视频流转换为工人动作识别数据集。
3.根据权利要求1所述的一种面向智慧工厂的视频动作识别方法,其特征在于:所述的步骤S102中的工厂视频数据片段生成步骤具体如下:先利用图像裁剪技术对视频画幅裁切到工人的工作区域,以排除其他区域的影响,利用视频剪辑技术先对工厂工人作业视频根据动作种类,以动作起始点为开始,动作结束点为终结进行片段剪辑。
4.根据权利要求1所述的一种面向智慧工厂的视频动作识别方法,其特征在于:所述的步骤S103的工件目标检测数据的标注规范如下:将工人作业视频输出成帧,对图片进行采样,选出有人操作的工件,并不是画面中所有工件都要标注,只检测正在被工人操作的工件,以避免给神经网络输入无关动作的噪声信息。
5.根据权利要求1所述的一种面向智慧工厂的视频动作识别方法,其特征在于:所述的步骤S104中工厂工人行为的识别神经网络由两条神经网络支路构成,其中一条为基于3D-ResNet的经典深度学习动作识别算法,基于3D卷积核构成,可以再时间维度上移动,提取时序特征,直接获取连续的帧序列识别动作;另一条为深度位置信息编码网络,先将目标检测算法提取的帧序列位置信息嵌入一个四维矩阵,再输入深度位置信息编码支路最后将动作识别支路输出的动作建模深度特征与位置信息编码支路输出的深度位置编码进行拼接输入一层全连接层进行预测。
6.根据权利要求1所述的一种面向智慧工厂的视频动作识别方法,其特征在于:所述的步骤S105中针对工厂工人动作识别目标检测特点的帧序列位置信息特征嵌入矩阵的设计步骤具体过程如下:采用待检测的视频片段上采样的n个帧进行目标检测,先每一帧上的检测信息嵌入一个k通道的矩阵里,k数量取决与动作识别关注的目标种类的个数,每个通道都是一个1*4大小的矩阵,内含每个目标检测框的信息,每个通道分别代表一类目标的位置信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于埃夫特智能装备股份有限公司,未经埃夫特智能装备股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210521070.6/1.html,转载请声明来源钻瓜专利网。