[发明专利]基于交互建模的第一人称视角视频交互行为识别方法有效
申请号: | 202010009544.X | 申请日: | 2020-01-06 |
公开(公告)号: | CN111241963B | 公开(公告)日: | 2023-07-14 |
发明(设计)人: | 郑伟诗;蔡祎俊;李昊昕;陈立 | 申请(专利权)人: | 中山大学 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V20/40;G06V10/764;G06V10/82;G06N3/0464;G06N3/08 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 李斌 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 交互 建模 第一人称 视角 视频 行为 识别 方法 | ||
本发明公开了一种基于交互建模的第一人称视角视频交互行为识别方法,提出对摄像头佩戴者和交互者进行分离,分别学习其对应的静态外观和动态运动特征,再显式建模二者之间的交互关系。为了将交互者从背景中分离出来,利用一个注意力模型生成掩码,并用人体解析模型辅助注意力模型的学习;提出一个运动模块分别预测摄像头佩戴者对应和交互者对应的运动信息矩阵,并通过对下一帧的重构辅助运动模块的学习。最后,提出一个用于交互建模的对偶长短时记忆模块,并在此模块基础上显式地建模交互关系。本发明能很好地对第一人称视角的交互行为进行描述和识别,并在常用的第一人称视角交互行为研究数据集上取得当前较优的识别结果。
技术领域
本发明属于行为识别的技术领域,具体涉及一种基于交互建模的第一人称视角视频交互行为识别方法。
背景技术
目前主要的第一人称群体行为识别方法分为两类,一类使用运动轨迹、光流等手工设计的运动特征,结合支持向量机等传统的分类器;另一类使用深度学习进行特征学习,这一类方法采用和第三人称视角的视频行为识别相类似的模型,使用卷积神经网络和长短时记忆模型从视频帧中直接学习行为特征。
上述现有技术的主要缺点是没有显式建模摄像头佩戴者和交互者之间的交互关系。现有技术通常直接学习交互行为的整体特征,但第一人称视角的交互行为是由摄像头佩戴者和交互者之间的交互产生的,显式对这一交互关系进行建模能更好地描述交互行为,现有技术缺乏显式的交互建模,因此无法很好地描述交互行为。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提供一种基于交互建模的第一人称视角视频交互行为识别方法,本发明能很好的对第一人称视角的交互行为进行描述和识别,并在常用的第一人称视角交互行为研究数据集上取得当前较优的识别结果。
为了达到上述目的,本发明采用以下技术方案:
基于交互建模的第一人称视角视频交互行为识别方法,包括下述步骤:
S1、将摄像头佩戴者和交互者显式分离,分别学习二者的行为特征,包括:
S1.1、通过注意力模块将交互者从背景中分离出来;
S1.2、分别提取和学习摄像头佩戴者和交互者的行为特征,所述行为特征包括静态外观特征和动态运动特征;所述静态外观特征为摄像头佩戴者看见的静态视觉内容的特征,即对应摄像头佩戴者的视频帧It的全局外观特征,以及对应交互者的视频帧It的局部外观特征;
S1.3、运动特征学习,对于摄像头佩戴者,其运动信息即为摄像头运动信息,该运动信息对视频帧变化的影响是全局性的;对于交互者,其运动信息对视频帧变换的影响是局部的,通过一个密集的运动矩阵D∈RH x W来表示交互者的运动信息,并通过和注意力模块生成的掩码Mt(3)逐渐相乘,使运动矩阵D只作用于交互者而不作用于背景;
S1.4、对于每一对相邻的视频帧It-1,It,通过上述的注意力模块和运动模块分别得到摄像头佩戴者对应的全局静态外观特征ftg,a和运动特征ftg,m,以及交互者对应的局部静态外观特征ftl,a和运动特征ftl,m。摄像头佩戴者的行为特征定义为ftego=[ftg,a,ftg,m],交互者的行为特征定义为ftexo=[ftl,a,ftl,m],这两个特征将用于摄像头佩戴者和交互者之间的交互关系建模。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010009544.X/2.html,转载请声明来源钻瓜专利网。