[发明专利]基于双尺度时空分块互注意力的课堂动作识别方法有效
申请号: | 202110518525.4 | 申请日: | 2021-05-12 |
公开(公告)号: | CN113408343B | 公开(公告)日: | 2022-05-13 |
发明(设计)人: | 李平;陈嘉;曹佳晨;徐向华 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V20/52;G06V40/20;G06K9/62;G06Q50/20;G06V10/764;G06V10/80 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱亚冠 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 尺度 时空 分块 注意力 课堂 动作 识别 方法 | ||
本发明公开了基于双尺度时空分块互注意力的课堂动作识别方法。本发明方法首先对高清课堂学生视频数据进行预处理得到学生动作视频帧序列;然后构建由双尺度特征嵌入模块、时空分块互注意力编码器、课堂动作分类模块组成的动作识别模型,依次获得双尺度时空特征表示、双尺度分类向量、动作类别概率向量,并利用随机梯度下降算法对动作识别模型进行迭代优化;将预处理后的新课堂视频输入该模型获得学生动作的类别。本发明方法不仅对多组时空块用时空注意力建模,以捕获线下与线上课堂学生视频的多尺度时空信息,还能通过尺度互注意力机制刻画不同尺度学生画面信息,从而提升课堂视频的学生动作识别准确率。
技术领域
本发明属于视频理解与分析技术领域,尤其是视频分析中的动作识别技术领域,涉及一种基于双尺度时空分块互注意力的课堂动作识别方法。
背景技术
传统的线下课堂是学生学习与教师授课的主要场所,近年来特别是疫情期间线上课堂成为广受师生欢迎的方式,一般采取网络直播或提前录播教学。无论是教室内的线下课堂还是利用网络平台的线上课堂,其教学质量的优劣将直接影响学生的学习效果。实际中常遇到的困境是教师为了确保课堂教学的质量,需花费很多精力在课堂纪律管理上,不能全心投入到授课教学中,这在小学课堂表现尤为明显。对此,引入视频动作识别技术对课堂里学生所做动作进行识别,即时感知学生的学习状态,并提供反映课堂质量的智能分析报告。课堂动作识别任务以学生动作视频帧序列作为输入,输出学生动作类别,在课堂授课、自修管理、无人监考等场景有广泛的应用。例如,在无人监考环境中,课堂动作识别方法能够实时识别考生的动作,若出现疑似作弊行为可对考生进行调查,从而确保考试纪律。主要挑战在于:难以将线下与线上课堂的动作识别方法统一、在同一视频画面中存在不同远近的学生、对多个学生进行动作识别需要大量计算开销等。
目前,针对课堂场景动作识别的实际应用较少,现有方法主要是基于可穿戴设备与骨架信息。但是,可穿戴设备可能会造成学生的不适,进而影响学生的学习效率;基于骨架信息的方法可识别的动作类别较少,识别性能极易受桌椅、书本等物件遮挡的影响。此外,传统动作识别方法需将视频帧编码成手工特征(如HOG3D、3Dsurf等特征),但是手工特征存在很大的局限性且其提取速度较慢无法满足实时性要求。近年来,以卷积神经网络(Convolutional Neural Network,CNN)为核心的动作识别方法能端到端地学习反映视频潜在语义信息的特征表示,大幅提升了动作识别的准确率。为了提取更有效的视觉特征,残差网络(ResNet)使用残差连接使得网络不同层相连,以缓解更深层神经网络模型训练时产生的过拟合、梯度消失或梯度爆炸等问题;非局部网络(Non-Local Network)利用一种非局部操作捕获长距离依赖关系,通过注意力机制建立视频帧图像不同距离的像素块之间的联系,挖掘彼此间语义信息。除此之外,源于自然语言处理领域的变换器(Transformer)模型近来风靡于计算机视觉领域,其多头注意力机制被用于提取视频帧序列中多样性的关键时序信息,使得模型能够学习更具辨识性的特征表示。
现有的课堂动作识别技术仍然存在许多不足:首先,针对线下课堂或线上课堂单独进行模型的设计,缺乏融合两种类型的课堂动作识别方法的统一接口;其次,提取特征时对所有视频帧分块计算时空注意力,忽略了时空特征的局部特性使得识别率下降,且当视频分辨率较大时计算开销过大;此外,很多方法仅提取单一尺度分块的时空特征,难以适应个体学生画面尺度不同的情况。为了解决缺少局部时空特征信息交换机制、适应不同尺度的个体学生画面等问题,迫切需要一种统一线下课堂与线上课堂,且能提高学生动作识别准确率的高效课堂动作识别方法。
发明内容
本发明的目的就是针对现有技术的不足,提供基于双尺度时空分块互注意力的课堂动作识别方法,对多组时空块用时空注意力建模,以捕获线下与线上课堂学生视频的多尺度时空信息,并利用尺度互注意力刻画不同尺度学生画面信息,以提高课堂动作的识别率。
本发明方法首先获取高清课堂学生视频数据,然后依次进行如下操作:
步骤(1)对高清课堂学生视频数据进行预处理,得到学生动作视频帧序列;具体是:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110518525.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:传输信息的方法和装置
- 下一篇:一种靶向Beclin1的订书肽、药物组合物