[发明专利]基于场景分类和多尺度特征融合的复杂场景人群计数方法有效
申请号: | 202010583112.X | 申请日: | 2020-06-23 |
公开(公告)号: | CN111783589B | 公开(公告)日: | 2022-03-15 |
发明(设计)人: | 王琦;李学龙;魏博 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V20/52;G06K9/62;G06N3/04;G06N3/08;G06V10/80 |
代理公司: | 西北工业大学专利中心 61204 | 代理人: | 常威威 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 场景 分类 尺度 特征 融合 复杂 人群 计数 方法 | ||
本发明提供了一种基于场景分类和多尺度特征融合的复杂场景人群计数方法。首先,标注并建立密度等级数据集;然后,利用建立的数据集分别对分类、稀疏估计和密集估计子网络进行预训练;接着,结合自标记机制,利用测试数据集对网络再次进行训练;最后,将图片输入到训练好的网络,利用分类权重对两种密度估计结果进行加权后得到人群密度图。采用本发明方法可以解决由于拍摄角度不同导致的图片尺度畸变和人群分布不均问题,具有更高的估计准确度和更强的鲁棒性。
技术领域
本发明属图像处理技术领域,具体涉及一种基于场景分类和多尺度特征融合的复杂场景人群计数方法。
背景技术
随着社会的不断发展,全球人口急剧增加,有越来越多的人涌入大城市生活工作,给城市带来安全隐患。在地铁站、大商场和各种集会中,过度密集的人群一旦失去控制,很容易发生骚乱,造成一系列拥堵、踩踏等恶性事件。假如安保人员能够在集会进行时掌握人群数量和分布情况,就可以在密度达到警戒线时及时采取相应措施,对此类恶性事件进行预防。正是基于这个需求,人群密度估计渐渐成为了计算机视觉领域的一个热门课题。大致上,人群密度估计方法可分为基于探测的方法、基于回归的方法和基于深度学习的方法。基于探测和回归的方法都是通过手工设计的特征来对人群进行估计,例如个体的形状、梯度直方图特征,整体的面积、周长等特征。这些特征无法应对遮挡、阴影等复杂情况。基于深度学习的方法借助于神经网络来提取图片中与人群有关的高级特征,其计数准确度相比于利用手工设计特征的方法有了很大提升。但是由于真实场景下存在着各种复杂情况,例如由于拍摄角度不同造成的尺度畸变、由于人员流动造成的密度分布不均等,导致这种方法的性能仍有很大的提升空间。
发明内容
为了克服现有技术的不足,本发明提供一种基于场景分类和多尺度特征融合的复杂场景人群计数方法。首先,标注并建立密度等级数据集;然后,利用建立的数据集分别对分类、稀疏估计和密集估计子网络进行预训练;接着,结合自标记机制,利用测试数据集对网络再次进行训练;最后,将实际待测图片输入到训练好的网络,利用分类权重对两种密度估计结果进行加权后得到人群密度图。本发明可以解决由于拍摄角度不同导致的图片尺度畸变和人群分布不均问题,提高整体的估计准确度。
一种基于场景分类和多尺度特征融合的复杂场景人群计数方法,其特征在于步骤如下:
步骤1:由公开的数据集ShangHaiTechPartA中随机裁截出2000-4000张图片,并计算这些图片中人数的平均值,以人数平均值的2/3为阈值α1,以人数平均值的4/3为阈值α2,将图片中人数低于α1的图片类别标注为稀疏,归入稀疏数据集,将图片中人数高于α2的图片类别标注为密集,归入密集数据集,将图片中人数处于α1和α2之间的图片类别随机标注为稀疏或密集,并归入相应的数据集;如果得到的稀疏数据集和密集数据集中的图片数量不同,在原数据集ShangHaiTechPartA中进行新的图片随机裁截,并按照前面所述方法根据阈值α1和α2进行图片类别标注和分类,直至两个数据集中的图片数量相同;两个数据集共同构成密度等级数据集;
步骤2:构建包括前端特征提取模块、分类模块、密集估计模块和稀疏估计模块四个模块的分类估计网络模型,其中,前端特征提取模块由在ImageNet数据集上预训练过的VGG-16的前10层卷积层组成,其输出为512通道的特征图,作为后续三个模块的输入;分类模块包括1个自适应池化层、3个卷积层和1个全连接层,3个卷积层的通道数分别为512、256、128,卷积核大小均为3×3,全连接层的输入为128通道,输出为2通道,分别代表密集与稀疏的权重,权重为0-1范围内的值,两个权重值的和为1;密集估计模块和稀疏估计模块的网络结构相同,均包含6层卷积层,通道数分别为512、256、256、128、32、1,卷积核大小均为3×3,输出分别为密集估计的密度图和稀疏估计的密度图,密度图中的像素值代表在该像素位置处的人数,密度图中所有像素值的和即为图片的人数估计值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010583112.X/2.html,转载请声明来源钻瓜专利网。