[发明专利]一种基于ShuffleNet改进的MTCNN人脸检测方法在审
申请号: | 202110242262.9 | 申请日: | 2021-03-04 |
公开(公告)号: | CN112949499A | 公开(公告)日: | 2021-06-11 |
发明(设计)人: | 徐成;秦振;刘宏哲;徐冰心;潘卫国;代松银 | 申请(专利权)人: | 北京联合大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
地址: | 100101 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 shufflenet 改进 mtcnn 检测 方法 | ||
本发明公开了一种基于ShuffleNet改进的MTCNN人脸检测方法,包括:首先将图像进行不同尺度的变换,构建图像金字塔,以适应不同大小的人脸的进行检测。第一阶段原始图片经过P‑Net生成人脸区域Bounding Boxes;第二阶段R‑Net以原始图片和第一阶段P‑Net生成的Bounding Boxes为输入,生成纠正后更加精确的Bounding Boxes;第三阶段将原始图片和R‑Net输出的Bounding Boxes作为O‑Net的输入,生成最后的人脸区域Bounding Boxes。采用ShuffleNet中的通道混洗思想与逐点分层卷积技术改进模型。该模型以MTCNN为基础,在进行卷积操作时采用通道混洗思想改进模型,使网络可以快速准确地检测人脸。
技术领域
本发明涉及深度学习目标检测领域,特别是涉及一种基于ShuffleNet改进的MTCNN人脸检测方法。
背景技术
随着机动车保有量的迅速增长,给人们的生活和出行带来了很大的便利,但由此带来的道路交通事故每年都给各个国家的人民生命财产和国民经济造成巨大的损失,而疲劳驾驶是导致交通事故的重要原因和主要原因之一。如果能实现人脸面部疲劳的高效识别,通过对驾驶员实时面部表情状态的检测,可有效预防并提醒驾驶员的疲劳驾驶现象,从而降低交通事故发生的可能性,因此该系统具有潜在的经济价值和广泛的应用前景。
现有的驾驶员疲劳检测方法存在一系列的问题:基于生理参数的检测方法需要驾驶员穿戴侵入式实验设备,不仅影响舒适性,还会对实际驾车状态下的驾驶员造成干扰。基于驾驶员操作行为的驾驶员疲劳检测方法受驾驶习惯、驾驶熟练度等个体差异性因素影响较大,存在鲁棒性较差、检测精度较低等问题。基于车辆运行参数的疲劳检测方法对行车环境有要求,在非结构化的道路上的检测鲁棒性差。基于面部行为的疲劳检测方法具有非侵入性、成本低,实时性好等优点,但该方法受驾驶环境及个体差异性影响较大。
近些年来,深度学习技术不断发展并取得了巨大的突破,通过卷积神经网络自动提取出目标特征。得益于卷积神经网络强大的特征提取能力,人脸检测算法的检测准确度大幅提升,并且具有更强的鲁棒性,可以适应更加复杂的识别场景。
2012年AlexNet的提出拉开了深度学习的发展大幕,之后2014年的VGGNet的提出使得深度神经网络的实现成为可能,但在网络加深的同时会出现梯度消失的问题。2015年ResNet的提出,通过残差连接的方法解决了上述问题,减少了模型收敛时间,使得网络更深而不容易出现梯度消失的问题。
多任务级联卷积神经网络(Multi-task Cascaded Convolutional Networks,MTCNN)是一个基于由粗到精(Coarse-to-fine)思想并同时实现人脸检测与人脸关键点检测的级联结构模型,是目前在人脸检测领域应用较为广泛的检测器。其利用人脸检测和人脸关键点检测的内在关联性来提升两者的检测性能,是少数能在传统硬件上落地的检测器,在人脸检测任务上有着较高的检测精度。由于MTCNN输出的仅仅是5个标定的人脸关键点,而驾驶疲劳检测需要更多的关键点来精确的定位人脸部件(如眼睛、嘴部等)及计算其疲劳特征,因此,本发明只利用MTCNN的人脸检测功能。整个级联结构包括三个CNN模型:P-Net(Proposal Network)、R-Net(Refinement Network)及O-Net(Output Network)。其中,P-Net是一个全卷积神经网络(Fully Convolutional Network,FCN)[5],用于快速产生一系列的人脸候选窗口;R-Net用于过滤掉P-Net生成的绝大部分非人脸候选窗口并对可能是人脸的候选窗口的边界框(Bounding Box)坐标位置进行进一步的纠正;O-Net与R-Net的功能类似,不同的是O-Net有更多的特征输入和复杂的网络结构,具有更好的性能,生成最终的人脸窗口及人脸关键点的位置。
MTCNN模型在检测速度上的瓶颈主要有:第1阶段P-Net的输入图像分辨率越大耗时越多;图像中的人脸越多第2和第3阶段O-Net和R-Net的耗时也就越长。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京联合大学,未经北京联合大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110242262.9/2.html,转载请声明来源钻瓜专利网。