[发明专利]基于场景分类和多尺度特征融合的复杂场景人群计数方法有效

申请号：	202010583112.X	申请日：	2020-06-23
公开（公告）号：	CN111783589B	公开（公告）日：	2022-03-15
发明（设计）人：	王琦;李学龙;魏博	申请（专利权）人：	西北工业大学
主分类号：	G06V20/40	分类号：	G06V20/40;G06V20/52;G06K9/62;G06N3/04;G06N3/08;G06V10/80
代理公司：	西北工业大学专利中心 61204	代理人：	常威威
地址：	710072 ***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于场景分类尺度特征融合复杂人群计数方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于场景分类和多尺度特征融合的复杂场景人群计数方法，其特征在于步骤如下：

步骤1：由公开的数据集ShangHaiTechPartA中随机裁截出2000-4000张图片，并计算这些图片中人数的平均值，以人数平均值的2/3为阈值α₁，以人数平均值的4/3为阈值α₂，将图片中人数低于α₁的图片类别标注为稀疏，归入稀疏数据集，将图片中人数高于α₂的图片类别标注为密集，归入密集数据集，将图片中人数处于α₁和α₂之间的图片类别随机标注为稀疏或密集，并归入相应的数据集；如果得到的稀疏数据集和密集数据集中的图片数量不同，在原数据集ShangHaiTechPartA中进行新的图片随机裁截，并按照前面所述方法根据阈值α₁和α₂进行图片类别标注和分类，直至两个数据集中的图片数量相同；两个数据集共同构成密度等级数据集；

步骤2：构建包括前端特征提取模块、分类模块、密集估计模块和稀疏估计模块四个模块的分类估计网络模型，其中，前端特征提取模块由在ImageNet数据集上预训练过的VGG-16的前10层卷积层组成，其输出为512通道的特征图，作为后续三个模块的输入；分类模块包括1个自适应池化层、3个卷积层和1个全连接层，3个卷积层的通道数分别为512、256、128，卷积核大小均为3×3，全连接层的输入为128通道，输出为2通道，分别代表密集与稀疏的权重，权重为0-1范围内的值，两个权重值的和为1；密集估计模块和稀疏估计模块的网络结构相同，均包含6层卷积层，通道数分别为512、256、256、128、32、1，卷积核大小均为3×3，输出分别为密集估计的密度图和稀疏估计的密度图，密度图中的像素值代表在该像素位置处的人数，密度图中所有像素值的和即为图片的人数估计值；

所述的特征提取模块与密集估计模块、稀疏估计模块还存在如下连接：特征提取模块的第7层卷积层的输出与密集估计模块的第3层卷积层的输出按通道叠加后输入到密集估计模块的第4层卷积层，特征提取模块的第10层卷积层的输出与密集估计模块的第1层卷积层的输出按通道叠加后输入到密集估计模块的第2层卷积层，特征提取模块的第7层卷积层的输出与稀疏估计模块的第3层卷积层的输出按通道叠加后输入到稀疏估计模块的第4层卷积层，特征提取模块的第10层卷积层的输出与稀疏估计模块的第1层卷积层的输出按通道叠加后输入到稀疏估计模块的第2层卷积层；

步骤3：首先，设定分类模块的损失函数为交叉熵损失函数，计算公式为：

其中，L_C表示交叉熵损失函数，y表示真值标签(密集或稀疏)，表示预测标签；

固定稀疏估计模块和密集估计模块中的参数，将密度等级数据集输入到网络对分类模块进行训练；

然后，设定密集估计和稀疏估计两个模块的损失函数都为均方差损失函数，计算公式为：

其中，L_D表示均方差损失函数，N表示测试图片数量，i表示图片标号，y_i表示第i张图片的真值人数，y′_i表示第i张图片的预测人数；

固定分类模块、特征提取模块和稀疏估计模块的参数，将密集数据集输入到网络对密集估计模块进行训练；

最后，固定分类模块、特征提取模块和密集估计模块的参数，将稀疏数据集输入到网络对稀疏估计模块进行训练，至此完成整个网络的预训练；

步骤4：对于测试数据集，首先，将其训练集中的所有图片输入到步骤3预训练后的网络，并按下式对图片进行密集程度标记：

其中，den_D表示密集估计模块输出的人数估计值，den_S表示稀疏估计模块输出的人群估计值，gt代表图片中总人数的真实值，label表示输入图片的密集程度标签，Dense表示密集，Sparse表示稀疏；

然后，将带密集程度标签的训练集中的所有图片输入到网络进行整体训练，训练中设定网络总的损失函数L_all为：

L_all＝αL_C+βL_D (4)

其中，α为控制分类模块比重的权重系数，取值范围为0-1，β为控制密集估计模块和稀疏估计模块比重的权重系数，取值范围为0-1；