[发明专利]基于注意力机制的多动症行为表达和识别方法在审
申请号: | 202210536719.1 | 申请日: | 2022-05-18 |
公开(公告)号: | CN115439924A | 公开(公告)日: | 2022-12-06 |
发明(设计)人: | 梁佳瑜;郑璐笛;余秋冬 | 申请(专利权)人: | 天津工业大学 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V20/40;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 300387 天津市*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 注意力 机制 多动症 行为 表达 识别 方法 | ||
1.基于注意力机制的多动症行为表达和识别方法,主要内容包括两个方面:
(1)数据集采集:通过手机采集在9个不同场景下12个人完成的6类动作,包含转头(动作标记为类别0)、趴桌子(类别1)、转身(类别2)、踢(类别3)、打(类别4)、其它动作(类别5)。采集设备为Vivoy7s、OPPOr9、华为nova2s,它们具有不同分辨率。采集视角不固定,采集环境为不同光线(充足、较暗)强度、不同背景环境。数据库共有386个视频样本,每个视频样本时长10s左右,其中包含一类动作。
(2)模型构建:由注意力模块和识别网络模块构成。(1)注意力模块由空间注意力模块和时间注意力模块组成,它们分别在空间和时间维度上提取关键行为信息。其中空间注意力模块基于YOLOv5x神经网络来实现对视频帧中人物区域的分割;时间注意力模块由基于帧间差分的方法来筛选关键帧,即视频流中像素点灰度值发生较大变化的帧。(2)将注意力模块提取的视频子序列作为C3D(Convolutional 3D)网络的输入来提取多动症行为特征并进行分类识别。
2.根据权利要求1所述的基于注意力机制的多动症行为表达和识别方法,其特征在于,模型的输入为连续的16个帧,即把一段视频流提取为16帧作为一个样本输入模型,从而提取检测帧中的行为特征,以便识别检测帧的动作。
3.根据权利要求1所述的基于注意力机制的多动症行为表达和识别方法,其特征在于,模型的输入帧为经过数据增强的帧,主要表现在放缩统一128*171*3的大小、随机裁剪为16*112*112*3的大小、随机0.5概率进行数据翻转,通过C3D网络识别。
4.根据权利要求1所述的基于注意力机制的多动症行为表达和识别方法,其特征在于,训练、验证、测试数据皆为自己采集的满足实验要求的划分为3∶1∶1的多张有类别标签的视频集构成。
5.根据权利要求1所述的基于注意力机制的多动症行为表达和识别方法,其特征在于人体检测区域的输出为所有类别为人且置信度大于一定阈值的区域,且通过非极大值抑制划分出的最优的儿童动作区域。
6.根据权利要求1所述的基于注意力机制的多动症行为表达和识别方法,其特征在于人体区域检测模块的坐标设置为最大区域包含儿童动作的部分,按照依次遍历的图像框得到的坐标进行比较的、最大的区域结果进行裁剪。
7.根据权利要求1所述的基于注意力机制的多动症行为表达和识别方法,其特征在于,关键帧模块的输入为连续n帧经过剪切的只包含儿童动作区域的图像块序列,输出对识别结果有重大影响的帧序列,即为基于帧间差分的前16帧。
8.根据权利要求1所述的基于注意力机制的多动症行为表达和识别方法,其特征在于,识别模型的输入为在时间上较为重要的前16帧,空间上为只包含儿童动作区域的部分,输出为每种类别的概率。
9.根据权利要求1所述的基于注意力机制的多动症行为表达和识别方法,其特征在于,网络模块使用的初始参数为在sport1M上训练的结果,损失函数为多分类交叉熵损失函数,优化器为动量梯度下降法,采用dropout随机减少神经元个数减少过拟合。
10.根据权利要求1所述的基于注意力机制的多动症行为表达和识别方法,其特征在于,识别模型最终统计检测帧的判定情况,若检测帧的判定情况与数据标签一致,则认定该检测帧行为判定正确,反之是判定错误。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津工业大学,未经天津工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210536719.1/1.html,转载请声明来源钻瓜专利网。