[发明专利]一种用于识别视频中人物动作的方法有效
申请号: | 202010021860.9 | 申请日: | 2020-01-09 |
公开(公告)号: | CN111241996B | 公开(公告)日: | 2023-06-02 |
发明(设计)人: | 蔡国永;蔡雨萌 | 申请(专利权)人: | 桂林电子科技大学 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V40/10;G06V10/764;G06V10/82;G06N3/0464;G06N3/048;G06N3/08 |
代理公司: | 桂林市华杰专利商标事务所有限责任公司 45112 | 代理人: | 陆梦云 |
地址: | 541004 广西*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 识别 视频 人物 动作 方法 | ||
1.一种用于识别视频中人物动作的方法,其特征是:包括如下(1)-(3)步骤:
(1)局部梯度空间特征学习:使用一种空间卷积网络和时间卷积网络分别提取短视频中每一帧的空间特征和时间特征,然后对空间特征进行初步学习;具体步骤如下[1]-[4]:
[1]使用空间卷积spatial提取特征,经过sigmoid函数后将特征分成两组空间特征b1,b2,然后用时间卷积temporal提取时间特征T:
b1=b2=sigmoid(spatial(x)),即在空间维度提取特征并分为b1,b2;
T=temporal(x),在时间维度提取特征T;
两组空间特征同时经过最大池化操作Fmax,其中1组通过全连接运算fc对空间特征进行学习:
b11=fc(Fmax(b1))使用最大池化和全连接运算处理空间特征;
[2]将空间特征b11与原始空间特征x同时作为损失函数的输入,即用于多分类的交叉熵损失函数,定义空间特征损失函数符号Lossspatial,使用权重矩阵为W的神经网络函数ψ对特征b11进行预测:
Lossspatial=lossCross(ψ(W,b11),x)
[3]从空间特征损失函数Lossspatial的梯度▽Wnew中学习权值Wnew,权值Wnew与空间特征b11同时作为偏差为bias的线性层linear的输入,学习率为μ,进而得到这个分支的空间特征b1final:
▽Wjnew=▽Wjold-μ▽WLossspatial
Wjnew=Wjold+▽Wjnew
b1final=linear(W1new*b11+bias)
此时另1组空间特征经过最大池化Fmax的空间特征b2,通过全连接运算fc进行学习,得到这组空间特征b2final:
b2final=fc(Fmax(b2))
[4]由上下2组生成的特征向量做逐元素加法的运算,生成的结果作为卷积核为3的空间卷积的输入,增加空间特征的感受野以此来学习更大范围的局部信息,经过空间卷积后,分成2组同时使用非线性操作relu:
x1=x2=relu(spatial(feature))
(2)细粒度空间特征学习:利用运算模块对空间特征进行细粒度学习,对步骤(1)生成的空间特征通过高斯函数进行学习,然后使用注意力机制选择空间特征中权重较大的特征向量生成注意力分数,最后用逐元素乘法生成的结果作为注意力特征向量;具体步骤如下[1]-[3]:
[1]由步骤(1)生成的两个分支的特征向量x1,x2作为输入,首先用两个高斯函数g,h进行空间特征学习,同时为了防止高斯函数过饱和,即在接近0的位置,导数变化大,远离0的位置,函数值趋近于0或1,导数几乎不变;所以在这个范围内变量变化无法引起导数的有效改变,设置避免饱和,d=max(1,c/b),c为输入特征向量的通道数,b为batch-size的大小;
[2]定义函数Mat做矩阵乘法操作:
对于注意力,使用softmax进行归一化得到的结果作为注意力分数score:
score=softmax(φ(g(x1),h(x2)))
[3]生成的注意力分数score经过神经网络函数f,以此生成注意力特征向量featurevec:
featurevec=f(∑score·x)
(3)块内注意力网络:利用局部功能注意力模块,以步骤(2)生成的结果作为空间特征向量,并与步骤(1)的时间特征作为输入,利用注意力模块继续选择空间特征中权重较大的特征向量,与时间特征做逐元素乘法,得到注意力特征向量;具体步骤如下[1]-[4]:
[1]将步骤(2)最后生成的注意力特征向量作为输入值,首先输入特征向量x’的通道数用c’表示,x’被分为两组,每组的通道数c’经过fscale操作分为c’/2:
b1=b2=fscale(x')
[2]每组特征向量经过最大池化Fmax选取特征图感受野每个区域的最大值,然后经过全连接运算fc进行空间特征的学习,最后经过fscale操作将其通道数恢复至开始时的特征向量:
b1final=b2final=fscale(fc(Fmax(b1)))
由fscale操作生成的特征向量b1final,b2final和步骤(1)的时间特征T作为注意力网络的输入;首先由特征向量b1final,b2final做矩阵乘法,由于softmax为会饱和的激活函数,为了避免进入饱和区域,用除以b为batch-size,然后进行softmax归一化操作得到的结果作为注意力分数;
[3]注意力分数与时间特征T做逐元素乘法,得到的结果作为注意力特征向量:
[4]最后,把上述结果通过全局平均池化和全连接层,然后进行动作分类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010021860.9/1.html,转载请声明来源钻瓜专利网。