[发明专利]一种基于YOLO的学员状态检测方法有效
申请号: | 201910413104.8 | 申请日: | 2019-05-17 |
公开(公告)号: | CN110633610B | 公开(公告)日: | 2022-03-25 |
发明(设计)人: | 黄进;杨旭;朱明仓;李剑波;王敏;李啸天;刘怡 | 申请(专利权)人: | 西南交通大学 |
主分类号: | G06V40/10 | 分类号: | G06V40/10;G06V10/25;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 成都东恒知盛知识产权代理事务所(特殊普通合伙) 51304 | 代理人: | 罗江 |
地址: | 610031*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 yolo 学员 状态 检测 方法 | ||
本发明公开了一种基于YOLO的学员状态检测算法,包括以下步骤:S1:YOLO的改进;S2:在原来的DBL组件后加入瓶颈注意力模型BAM,然后经过2个DBL组件,再加入卷积注意力模型CBAM;S3:修改后的网络进行训练,本发明涉及基于YOLO的目标检测技术。本发明在YOLO网络的基础上,加入了瓶颈注意力模型(BAM)和卷积注意力模型(CBAM),在保证了较高检测速率的同时,提高了YOLO网络的精度。同时,我们将其应用在教学课堂中,实现对学生听课状态的检测,便于教学者对课堂情况的了解和管理加入了注意力机制的YOLO网络,经过在VOC 2012数据集上的测试,速度可以达到在自己的学员数据集上,准确率相对原版网络,准确率有所提升。
技术领域
本发明属于计算机视觉领域中的目标检测技术方向,具体涉及一种基于基于YOLO的学员状态检测方法。
背景技术
目标检测,是图像处理领域的一个重要分支,即在一幅图像中框出感兴趣目标的范围和所属类别。现阶段目标检测分为“two-stage”和“one-stage”两个流派,前者是通过先候选区域定位,后分类的思路,以RCNN系列为代表,后者是直接进行候选框回归和分类,以YOLO、SSD等为代表。YOLO是其中检测速率最快的一种,但是检测精度不够。
在学生状态的检测最接近的技术中,论文《基于Faster R-CNN的学生课堂行为检测算法研究》,采用Ross B.Girshick提出的Faster R-CNN算法,将学生课堂行为分为三类即学习、睡觉、玩(玩手机、聊天等其他),在教室布置摄像头采集数据,标注信息,并送入Faster R-CNN网络进行训练,最终实现检测。
缺点可以是成本高,效率底,耗时间等类似问题,由于Faster R-CNN网络本身的限制,检测速率很低,加上学生课堂行为数据集本身的特点(监控视频图像区别于一般的视频图像,其不能获取目标的正面信息,存在一定角度差),因此虽然原论文可以实现对课堂行为的检测,但在实时性和高效性上有所欠缺,若是将其应用在实际场景中,就会存在一些问题。
发明内容
本发明的目的在于提供一种基于YOLO的学员状态检测方法,针对Faster R-CNN的检测速率问题,因此我们的方案是采用了YOLO网络,由于YOLO的固有结构,使得它的检测速率很快,是RCNN的1000倍,Faster RCNN的100倍,因此我们的重点在于改进YOLO的检测精度,使得YOLO速度与精度共存;
在YOLO网络的基础上,加入了瓶颈注意力模型(BAM)和卷积注意力模型(CBAM),在保证了较高检测速率的同时,提高了YOLO网络的精度。同时,我们将其应用在教学课堂中,实现对学生听课状态的检测,便于教学者对课堂情况的了解和管理加入了注意力机制的YOLO网络,经过在VOC 2012数据集上的测试,速度可以达到在自己的学员数据集上,准确率相对原版网络,准确率有所提升,以解决上述背景技术中提出现有技术中的问题。
为实现上述目的,本发明采用了如下技术方案:一种基于YOLO的学员状态检测方法,包括以下步骤:
S1:YOLO的改进,修改原网络的残差单元,原结构中的残差单元,由zero-padding层(零填充)、DBL组件(卷积+BN层+LeakyRelu)和n个残差结构res unit(两个DBL组件+add)构成;
S2:在原来的DBL组件后加入瓶颈注意力模型BAM,然后经过2个DBL组件,再加入卷积注意力模型CBAM;
S3:修改后的网络进行训练,具体步骤如下:
a:获取课堂监控视频,间隔或随机抽取部分帧画面,使用标注工具标注每张图中的目标信息,制成数据集;
b:将数据集送入修改后的YOLO网络进行训练;
c:训练完成后得到针对该数据集类型的模型文件,使用该模型可以检测相应类别的视频和图像。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南交通大学,未经西南交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910413104.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于人脸对象位置分析的定位平台
- 下一篇:基于信号分析的时长调节方法