[发明专利]基于深度学习的行人检测方法及检测装置有效
申请号: | 201710010476.7 | 申请日: | 2017-01-06 |
公开(公告)号: | CN106845374B | 公开(公告)日: | 2020-03-27 |
发明(设计)人: | 丁贵广;郝晖;陈仕江 | 申请(专利权)人: | 清华大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/08 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 张润 |
地址: | 10008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 学习 行人 检测 方法 装置 | ||
本发明公开了一种基于深度学习的行人检测方法及检测装置,其中,方法包括:获取视频数据;根据视频数据定位多个可能存在行人的关键区域;通过深度卷积神经网络对多个可能存在行人的关键区域进行多次迭代,得到调整和过滤后的行人特征,以判断关键区域中是否有行人;如果关键区域中有行人,则输出每一个行人检测结果的边界框和置信度。该方法在行人检测中,可以提升关键区域检测效果和关键区域中行人检测效果,实现满足真实应用场景需要的高清视频实时行人检测的目的,不但提高检测的精确度,而且提高检测效率,简单易实现。
技术领域
本发明涉及计算机多媒体技术领域,特别涉及一种基于深度学习的行人检测方法及检测装置。
背景技术
相关技术中,利用背景建模和统计学习的行人检测方法在特定条件下可能取得较好的行人检测效率或精确度,但这两种方法都还不能满足实际应用中的要求。其中,背景建模方法普遍比较复杂,导致不能满足实际应用中实时检测的需要,而基于统计学习的方法由于分类器训练比较复杂,尤其是样本量大时难以训练出通用的行人检测分类器,且分类器的训练时间开销极大,如果能提前检测出视频内容中的一些关键区域,然后提高在这些关键区域上行人检测的准确度,将能够在时间效率和检测精度上均获得提升。
因此,如何更好地利用视频数据本身特征,在行人检测过程中减少对视频数据的重复处理,提升关键区域检测精度和关键区域上行人检测精度,仍需要进一步的研究。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种基于深度学习的行人检测方法,该方法可以提高检测的精确度,且提高检测效率,简单易实现。
本发明的另一个目的在于提出一种基于深度学习的行人检测装置。
为达到上述目的,本发明一方面实施例提出了一种基于深度学习的行人检测方法,包括以下步骤:获取视频数据;根据所述视频数据定位多个可能存在行人的关键区域;通过深度卷积神经网络对所述多个可能存在行人的关键区域进行多次迭代,得到调整和过滤后的行人特征,以判断关键区域中是否有行人;如果所述关键区域中有行人,则输出每一个行人检测结果的边界框和置信度。
本发明实施例的基于深度学习的行人检测方法,通过深度卷积神经网络对多个可能存在行人的关键区域进行多次迭代,从而得到调整和过滤后的行人特征,实现提升关键区域检测效果和关键区域中行人检测效果,有效满足真实应用场景需要的高清视频实时行人检测的目的,不但提高检测的精确度,而且提高检测效率,简单易实现。
另外,根据本发明上述实施例的基于深度学习的行人检测方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述深度卷积神经网络包括多个卷积层、Roi采样层、全连接层和回归拟合层,以对所述视频数据中输入图片的多个关键区域进行统一采样和规范化的特征表示,并且对预测区域与标注数据进行回归拟合,以得到用于区域边界框的调整偏置。
进一步地,在本发明的一个实施例中,所述深度卷积神经网络的损失函数为:
L(p,u,tu,v)=Lcls(p,u)+λ[u≥1]Lloc(tu,v),
其中,Lcls表示关于行人及辅助类类别的损失函数,Lloc表示关于判断边界框位置的损失函数,u表示对象类别,v表示对象边界框,p表示辅助类别的离散概率分布,tu表示行人对象边界框的预测结果,λ表示损失函数中的超参数。
进一步地,在本发明的一个实施例中,在定位所述多个关键区域时,将每一个关键区域赋予一个初始类别,所述类标确定方式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710010476.7/2.html,转载请声明来源钻瓜专利网。