[发明专利]基于场景分类和多尺度特征融合的复杂场景人群计数方法有效
申请号: | 202010583112.X | 申请日: | 2020-06-23 |
公开(公告)号: | CN111783589B | 公开(公告)日: | 2022-03-15 |
发明(设计)人: | 王琦;李学龙;魏博 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V20/52;G06K9/62;G06N3/04;G06N3/08;G06V10/80 |
代理公司: | 西北工业大学专利中心 61204 | 代理人: | 常威威 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 场景 分类 尺度 特征 融合 复杂 人群 计数 方法 | ||
1.一种基于场景分类和多尺度特征融合的复杂场景人群计数方法,其特征在于步骤如下:
步骤1:由公开的数据集ShangHaiTechPartA中随机裁截出2000-4000张图片,并计算这些图片中人数的平均值,以人数平均值的2/3为阈值α1,以人数平均值的4/3为阈值α2,将图片中人数低于α1的图片类别标注为稀疏,归入稀疏数据集,将图片中人数高于α2的图片类别标注为密集,归入密集数据集,将图片中人数处于α1和α2之间的图片类别随机标注为稀疏或密集,并归入相应的数据集;如果得到的稀疏数据集和密集数据集中的图片数量不同,在原数据集ShangHaiTechPartA中进行新的图片随机裁截,并按照前面所述方法根据阈值α1和α2进行图片类别标注和分类,直至两个数据集中的图片数量相同;两个数据集共同构成密度等级数据集;
步骤2:构建包括前端特征提取模块、分类模块、密集估计模块和稀疏估计模块四个模块的分类估计网络模型,其中,前端特征提取模块由在ImageNet数据集上预训练过的VGG-16的前10层卷积层组成,其输出为512通道的特征图,作为后续三个模块的输入;分类模块包括1个自适应池化层、3个卷积层和1个全连接层,3个卷积层的通道数分别为512、256、128,卷积核大小均为3×3,全连接层的输入为128通道,输出为2通道,分别代表密集与稀疏的权重,权重为0-1范围内的值,两个权重值的和为1;密集估计模块和稀疏估计模块的网络结构相同,均包含6层卷积层,通道数分别为512、256、256、128、32、1,卷积核大小均为3×3,输出分别为密集估计的密度图和稀疏估计的密度图,密度图中的像素值代表在该像素位置处的人数,密度图中所有像素值的和即为图片的人数估计值;
所述的特征提取模块与密集估计模块、稀疏估计模块还存在如下连接:特征提取模块的第7层卷积层的输出与密集估计模块的第3层卷积层的输出按通道叠加后输入到密集估计模块的第4层卷积层,特征提取模块的第10层卷积层的输出与密集估计模块的第1层卷积层的输出按通道叠加后输入到密集估计模块的第2层卷积层,特征提取模块的第7层卷积层的输出与稀疏估计模块的第3层卷积层的输出按通道叠加后输入到稀疏估计模块的第4层卷积层,特征提取模块的第10层卷积层的输出与稀疏估计模块的第1层卷积层的输出按通道叠加后输入到稀疏估计模块的第2层卷积层;
步骤3:首先,设定分类模块的损失函数为交叉熵损失函数,计算公式为:
其中,LC表示交叉熵损失函数,y表示真值标签(密集或稀疏),表示预测标签;
固定稀疏估计模块和密集估计模块中的参数,将密度等级数据集输入到网络对分类模块进行训练;
然后,设定密集估计和稀疏估计两个模块的损失函数都为均方差损失函数,计算公式为:
其中,LD表示均方差损失函数,N表示测试图片数量,i表示图片标号,yi表示第i张图片的真值人数,y′i表示第i张图片的预测人数;
固定分类模块、特征提取模块和稀疏估计模块的参数,将密集数据集输入到网络对密集估计模块进行训练;
最后,固定分类模块、特征提取模块和密集估计模块的参数,将稀疏数据集输入到网络对稀疏估计模块进行训练,至此完成整个网络的预训练;
步骤4:对于测试数据集,首先,将其训练集中的所有图片输入到步骤3预训练后的网络,并按下式对图片进行密集程度标记:
其中,denD表示密集估计模块输出的人数估计值,denS表示稀疏估计模块输出的人群估计值,gt代表图片中总人数的真实值,label表示输入图片的密集程度标签,Dense表示密集,Sparse表示稀疏;
然后,将带密集程度标签的训练集中的所有图片输入到网络进行整体训练,训练中设定网络总的损失函数Lall为:
Lall=αLC+βLD (4)
其中,α为控制分类模块比重的权重系数,取值范围为0-1,β为控制密集估计模块和稀疏估计模块比重的权重系数,取值范围为0-1;
所述的测试数据集包括ShanghaiTech数据集、UCF_CC数据集;
步骤5:将待计数人群图片输入到步骤4得到的训练好的网络中,经过三个模块的估计,分别得到密集与稀疏的分类权重、密集估计结果和稀疏估计结果,将密集估计结果和稀疏估计结果按照其对应的分类权重进行加权求和,即得到图片的密度图,将密度图中所有像素值相加,即得到图片的估计总人数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010583112.X/1.html,转载请声明来源钻瓜专利网。