[发明专利]基于交互建模的第一人称视角视频交互行为识别方法有效
申请号: | 202010009544.X | 申请日: | 2020-01-06 |
公开(公告)号: | CN111241963B | 公开(公告)日: | 2023-07-14 |
发明(设计)人: | 郑伟诗;蔡祎俊;李昊昕;陈立 | 申请(专利权)人: | 中山大学 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V20/40;G06V10/764;G06V10/82;G06N3/0464;G06N3/08 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 李斌 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 交互 建模 第一人称 视角 视频 行为 识别 方法 | ||
1.基于交互建模的第一人称视角视频交互行为识别方法,其特征在于,包括下述步骤:
S1、将摄像头佩戴者和交互者显式分离,分别学习二者的行为特征,包括:
S1.1、通过注意力模块将交互者从背景中分离出来;
S1.2、分别提取和学习摄像头佩戴者和交互者的行为特征,所述行为特征包括静态外观特征和动态运动特征;所述静态外观特征为摄像头佩戴者看见的静态视觉内容的特征,即对应摄像头佩戴者的视频帧It的全局外观特征,以及对应交互者的视频帧It的局部外观特征;
S1.3、运动特征学习,对于摄像头佩戴者,其运动信息即为摄像头运动信息,该运动信息对视频帧变化的影响是全局性的;对于交互者,其运动信息对视频帧变换的影响是局部的,通过一个密集的运动矩阵D∈RH x W来表示交互者的运动信息,并通过和注意力模块生成的掩码Mt(3)逐渐相乘,使运动矩阵D只作用于交互者而不作用于背景;
S1.4、对于每一对相邻的视频帧It-1,It,通过上述的注意力模块和运动矩阵分别得到摄像头佩戴者对应的全局静态外观特征ftg,a和运动特征ftg,m,以及交互者对应的局部静态外观特征ft1,a和运动特征ft1,m,摄像头佩戴者的行为特征定义为ftego=[ftg,a,ftg,m],交互者的行为特征定义为ftexo=[ft1,a,ft1,m],这两个特征将用于摄像头佩戴者和交互者之间的交互关系建模;
S2、对偶交互关系建模;
S2.1、构建用于交互建模的长短时记忆模块;步骤S2.1中,构建用于交互建模的长短时记忆模块具体为:
摄像头佩戴者和交互者的个体行为特征分别输入对应的长短时记忆模块,这两个模块互为对偶模块,采用对称的更新方式:
[it;ot;gt;at]=σ(Wft+UFt-1+Jt-1+b)
ct=itat+gtct-1
Ft=ottanh(ct)
其中it,ot,gt,at分别是长短时记忆模块的输入门限值,输出门限值,遗忘门限值和输入特征,σ是非线性函数sigmoid函数,Φ是线性整流函数,ft是摄像头佩戴者或交互者的个体行为特征,ct是长短时记忆模块的中间特征,Ft则是对应的长短时记忆模块的输出特征,Ft*是对偶模块的输出特征,V、b为长短时记忆模块的可学习参数;
S2.2、用于交互建模的长短时记忆模块通过把对偶模块在上一帧的输出作为当前帧的输入,显式建模了摄像头佩戴者和交互者的交互关系;步骤S2.2中,还包括下述步骤:
将两个长短时记忆模块在视频的最后一帧N时的输出逐点相加并通过非线性操作得到融合后的特征:
在RN上添加一个线性分类器,并通过softmax函数可以得到对应于各个行为类别的概率:
p(y|RN)=softmax(WRN+b)
使用交叉熵损失函数对分类结果进行优化:
其中yk为类别k的标签,即如果行为类别编号为k,则yk=1,否则yk=0;K为总的类别数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010009544.X/1.html,转载请声明来源钻瓜专利网。