[发明专利]基于多模态双流3D网络的视频人体行为识别方法及系统在审
申请号: | 201910936088.0 | 申请日: | 2019-09-29 |
公开(公告)号: | CN110705463A | 公开(公告)日: | 2020-01-17 |
发明(设计)人: | 马昕;武寒波;宋锐;荣学文;田国会;李贻斌 | 申请(专利权)人: | 山东大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04 |
代理公司: | 37221 济南圣达知识产权代理有限公司 | 代理人: | 董雪 |
地址: | 250061 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视频 分类结果 动态图 多模态 图序列 建模 双流 姿势 卷积神经网络 人体行为识别 行为识别结果 人体运动 人体姿态 深度视频 时空动态 时空结构 识别性能 数据模态 网络架构 评估 长时 捕捉 清晰 融合 全局 网络 | ||
1.一种基于多模态双流3D网络的视频人体行为识别方法,其特征在于,包括:
基于深度视频生成的深度动态图序列DDIS;
基于RGB视频生成的姿势评估图序列PEMS;
将深度动态图序列和姿势评估图序列分别输入到3D卷积神经网络中,构造DDIS流和PEMS流,得到各自的分类结果;
将得到的分类结果进行融合,得到最终的行为识别结果。
2.如权利要求1所述的一种基于多模态双流3D网络的视频人体行为识别方法,其特征在于,所述的基于深度视频生成的深度动态图序列,具体为:
采用宽度为L的滑动窗口沿深度视频序列的时间轴以设定步长s进行移动,生成T个短片段;采用排序池化法将每个短片段中的时空信息聚合为一张深度动态图像,得到深度动态图序列。
3.如权利要求2所述的一种基于多模态双流3D网络的视频人体行为识别方法,其特征在于,所述步长s与深度视频序列的长度N满足如下关系式:
4.如权利要求2所述的一种基于多模态双流3D网络的视频人体行为识别方法,其特征在于,采用排序池化法将每个短片段中的时空信息聚合为一张深度动态图像,具体为:令其中表示深度视频的第t个片段中的第j张图像,滑动窗口的宽度L同样也是视频片段的长度;
通过时变平均向量运算捕获第t个视频片段中连续帧之间的时序信息;
使用结构风险最小化定义排序池化的目标函数:
得到满足上述目标函数的最优参数向量,所述参数向量被转换为一个二维矩阵表示生成的动态图像,该动态图像聚合了一个深度视频短片段的所有图像帧,能够同时描述深度视频短时片段的空间运动和时间结构信息。
5.如权利要求1所述的一种基于多模态双流3D网络的视频人体行为识别方法,其特征在于,基于RGB视频生成的姿势评估图序列,具体为:
对于RGB视频序列,通过在每张彩色图像上应用姿势评估来生成相应的姿势评估图;然后将稀疏采样应用到原始生成的RGB姿势评估图序列中,得到姿势评估图序列。
6.如权利要求1所述的一种基于多模态双流3D网络的视频人体行为识别方法,其特征在于,将DDIS流和PEMS流生成的类得分向量进行平均化处理,获取行为视频的最终分类得分。
7.一种基于多模态双流3D网络的视频人体行为识别系统,其特征在于,包括:
用于基于深度视频生成的深度动态图序列的模块;
用于基于RGB视频生成的姿势评估图序列的模块;
用于将深度动态图序列和姿势评估图序列分别输入到3D卷积神经网络中,得到各自的分类结果的模块;
用于将得到的分类结果进行融合,得到最终的行为识别结果的模块。
8.一种终端设备,其包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,其特征在于,所述指令适于由处理器加载并执行权利要求1-6任一项所述的基于多模态双流3D网络的视频人体行为识别方法。
9.一种计算机可读存储介质,其中存储有多条指令,其特征在于,所述指令适于由终端设备的处理器加载并执行权利要求1-6任一项所述的基于多模态双流3D网络的视频人体行为识别方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910936088.0/1.html,转载请声明来源钻瓜专利网。