[发明专利]基于双尺度时空分块互注意力的课堂动作识别方法有效
申请号: | 202110518525.4 | 申请日: | 2021-05-12 |
公开(公告)号: | CN113408343B | 公开(公告)日: | 2022-05-13 |
发明(设计)人: | 李平;陈嘉;曹佳晨;徐向华 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V20/52;G06V40/20;G06K9/62;G06Q50/20;G06V10/764;G06V10/80 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱亚冠 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 尺度 时空 分块 注意力 课堂 动作 识别 方法 | ||
1.基于双尺度时空分块互注意力的课堂动作识别方法,其特征在于,该方法首先获取高清课堂学生视频数据,然后进行以下操作:
步骤(1)对高清课堂学生视频数据进行预处理,得到学生动作视频帧序列;具体是:
(1-1)对每个高清课堂学生视频,以每秒k帧的采样率处理为相应的视频帧序列,以60k帧为时间间隔,将高清课堂学生视频帧中的学生位置边界框进行标注,获得高清课堂学生图像数据集,k=15~30;
(1-2)对每个学生位置边界框,使用OpenCV的矩阵索引方法截取边界框区域内的60k帧图像,并将高和宽缩放至相同分辨率,得到学生动作视频帧序列为实数域,动作的类别序号为b,b=1,…B,B为动作类别总数,fi表示帧序列中第i幅高为H、宽为W的RGB三通道图像,T为总帧数,即T=60k;
步骤(2)构建双尺度特征嵌入模块,输入为学生动作视频帧序列,输出为双尺度时空特征表示;具体是:
(2-1)双尺度特征嵌入模块由三维卷积层、三维平均池化层、特征分块操作以及线性嵌入层构成;
(2-2)将学生动作视频帧序列V输入至三维卷积层得到时空特征,然后将时空特征放入至三维平均池化层,得到池化时空特征其中h、w、c、t分别为池化时空特征的高度维度、宽度维度、通道维度、时序维度;
(2-3)对池化时空特征的高度维度和宽度维度分别以L×L和S×S尺度进行特征分块操作,并将各个块的特征通过线性嵌入层映射,得到第t时刻第p块的大尺度块特征向量和小尺度块特征向量D表示特征向量的维度,L和S为分块尺度大小,L=γS,γ>0为尺度倍数;
将两种块特征向量分别进行拼接,得到大尺度时空特征矩阵和小尺度时空特征矩阵[·,…,·]表示拼接操作;其中,大尺度空间特征分块总数小尺度空间特征分块总数输出双尺度时空特征表示{Xl,Xs};
步骤(3)构建时空分块互注意力编码器,输入为双尺度时空特征表示,输出为双尺度分类向量;具体是:
(3-1)时空分块互注意力编码器由R个时空分块互注意力模块串连组成,每个时空分块互注意力模块均由时空块生成子模块、时空注意力子模块和尺度互注意力子模块构成;输入为双尺度时空特征表示{Xl,Xs};
(3-2)第r个时空分块互注意力模块输入的双尺度时空特征张量其中,输入的大尺度时空特征矩阵输入的小尺度时空特征矩阵和为大尺度分类向量和小尺度分类向量;
第r个时空分块互注意力模块输出的双尺度互注意力特征张量其中,输出的大尺度互注意力特征矩阵输出的小尺度互注意力特征矩阵和为输出的大尺度分类向量和小尺度分类向量,和为输出的大尺度时空特征矩阵和小尺度时空特征矩阵;
当r=1时,输入的大尺度时空特征矩阵输入的小尺度时空特征矩阵大尺度分类向量和小尺度分类向量由随机初始化获得;
当R≥r>1时,输入的双尺度时空特征张量为上一个时空分块互注意力模块输出的双尺度互注意力特征张量即
时空分块互注意力编码器的输出为第R个时空分块互注意力模块的输出中的双尺度分类向量与
(3-3)第r个双尺度时空分块互注意力模块的时空块生成子模块将输入的中的Zr,l和Zr,s分别重组至统一尺寸的大尺度特征映射和小尺度特征映射其中,高度维度宽度维度
按照高度维度hr、宽度维度wr、时间维度tr将进行时空分块,得到第r组大尺度时空块特征张量其中j为大尺度时空块的索引下标,Qr为第r组大尺度时空块的总数,满足条件:且第r组时空块的尺度大小均为第r-1组时空块的λ倍,λ>0,即r≥2:
然后将进行维度变换,得到大尺度时空块的时空特征矩阵其中大尺度时空块的空间特征分块总数nl=hrwr;
将与拼接,得到更新后的第r组第j块大尺度时空块特征张量元素
相同操作,得到更新后的小尺度时空块特征张量元素其中小尺度时空块的空间特征分块总数ns=hrwrγ2;
获得第r组双尺度时空块特征张量与
(3-4)第r个双尺度时空分块互注意力模块的时空注意力子模块的输入为时空块生成子模块的输出的和将第r组第j个大尺度时空块特征张量元素进行线性映射得到其在每个注意力头的查询矩阵键矩阵和值矩阵其中,注意力头序号a=1,…,A,A为注意力头总数,映射矩阵内每个向量的维度计算其对应的多头时空自注意力权重特征其中Softmax(·)为归一化指数函数;
使用可学习参数和残差结构计算得到该大尺度时空块时空注意力特征矩阵
将分解获得更新后的大尺度时空块分类向量和大尺度时空块时空特征矩阵MLP(·)表示多层感知机,LN(·)表示层归一化;
相同操作,得到小尺度时空块时空注意力特征矩阵
由此获得第r组双尺度时空块时空注意力特征张量和
(3-5)第r个双尺度时空分块互注意力模块的尺度互注意力子模块的输入为时空注意力子模块的输出和其中,第r组第j个双尺度时空块分类向量为和双尺度时空块时空特征矩阵为与
将大尺度时空块分类向量进行线性映射,得到其查询向量将小尺度时空块时空注意力特征矩阵进行两次线性映射,分别得到其键矩阵和值矩阵计算多头时空自注意力权重特征
使用可学习参数和残差结构计算得到更新后的大尺度时空块分类向量
由此获得第r组所有大尺度时空块分类向量将其进行线性映射得到更新后的大尺度分类向量
将第r组所有大尺度时空块时空特征矩阵拼接,得到大尺度时空特征矩阵将其与大尺度分类向量拼接,得到大尺度互注意力特征矩阵
相同操作,得到小尺度分类向量和小尺度互注意力特征矩阵
第r个时空分块互注意力模块输出为双尺度互注意力特征张量
步骤(4)构建课堂动作分类模块,输入为双尺度分类向量,输出为动作类别概率向量;
步骤(5)对由双尺度特征嵌入模块、时空分块互注意力编码器、课堂动作分类模块组成的动作识别模型进行迭代训练,直至模型收敛;
步骤(6)对新的课堂学生视频进行预处理,先将首帧图像输入预训练的目标检测模型,得到学生边界框并据此获得相应视频帧序列,然后将其输入已训练好的动作识别模型,最终输出学生动作的类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110518525.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:传输信息的方法和装置
- 下一篇:一种靶向Beclin1的订书肽、药物组合物