[发明专利]一种基于卷积神经网络的图片人头计数的方法和装置有效
申请号: | 202110266080.5 | 申请日: | 2021-03-11 |
公开(公告)号: | CN112651390B | 公开(公告)日: | 2021-09-10 |
发明(设计)人: | 王晓东;张宜红;章联军;吴奇元;郭超;史鸣杰 | 申请(专利权)人: | 江苏金智教育信息股份有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/42;G06N3/04;G06N3/08 |
代理公司: | 江苏银创律师事务所 32242 | 代理人: | 孙计良 |
地址: | 211106 江苏省南京市江宁区天元西*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 卷积 神经网络 图片 人头 计数 方法 装置 | ||
1.一种基于卷积神经网络的图片人头计数的方法,其特征在于,该方法还包括模型初始化步骤、数据初始化步骤、图片预处理步骤、模型计算步骤和人头计数步骤;
所述模型初始化步骤,用于:初始化所述人头计数卷积神经网络模型;
所述数据初始化步骤,用于:获取所述人头计数卷积神经网络模型训练得到的模型特征矩阵数据,然后将所述模型特征矩阵数据加载至所述人头计数卷积神经网络模型;
所述图片预处理步骤,用于:以边缘切断的方式对输入的图片尺寸进行修整,使得图片的长宽尺寸均为8倍数,并以均值0.485、0.456、 0.406和标准差0.229、0.224、0.225在三个通道上标准化像素值,使得图像在三个通道上归一化至区间[0,1],得到预处理图像fp;
所述模型计算步骤用于通过人头计数卷积神经网络模型计算得到人群密度图;
所述人头计数步骤,用于:将所述预处理图像fp输入至所述数据初始化后的人头计数卷积神经网络模型,经所述人头计数卷积神经网络模型计算得到人群密度图;然后通过人群密度图进行积分累加得到所输入的图片中的人数;
其中,所述人头计数卷积神经网络模型包括前端网络、中端网络和后端网络;
所述前端网络包括第一前端特征网络、第二前端特征网络、第三前端特征网络、第四前端特征网络和前端特征融合网络;
所述第一前端特征网络包括按顺序相连的第一前端卷积层、第二前端卷积层和第一前端池化层;所述第一前端卷积层的输入即为所述第一前端特征网络的输入,也即为所述前端网络的输入;所述第一前端特征网络的输出即为所述第一前端池化层的输出,输出通道数为64、尺寸大小为输入图像1/2的第一前端特征图ff1;
所述第一前端卷积层中,输入通道数为3,输出通道数为64,卷积核大小为3*3,步长为1,填充为1;所述第二前端卷积层中,输入通道数为64,输出通道数为64,卷积核大小为3*3,步长为1,填充为1;所述第一前端池化层中,池化核为2*2,步长为2,填充为0,采用最大池化;
所述第二前端特征网络包括按顺序相连的第三前端卷积层、第四前端卷积层和第二前端池化层;所述第二前端特征网络的输入即为所述第三前端卷积层的输入,连接所述第一前端特征网络的输出;所述第二前端特征网络的输出即为所述第二前端池化层的输出,输出通道数为128、尺寸大小为输入图像1/4的第二前端特征图ff2;
所述第三前端卷积层中,输入通道数为64,输出通道数为128,卷积核大小为3*3,步长为1,填充为1;所述第四前端卷积层中,输入通道数为128,输出通道数为128,卷积核大小为3*3,步长为1,填充为1;所述第二前端池化层中,池化核大小为2*2,步长为2,填充为0,采用最大池化;
所述第三前端特征网络包括按顺序相连的第五前端卷积层、两个第六前端卷积层和第三前端池化层;所述第三前端特征网络的输入即为所述第五前端卷积层的输入,连接所述第二前端特征网络的输出;所述第三前端特征网络的输出即为所述第三前端池化层的输出,输出通道数为256、尺寸大小为输入图像1/8的第三前端特征图ff3;
所述第五前端卷积层中,输入通道数为128,输出通道数为256,卷积核大小为3*3,步长为1,填充为1;所述第六前端卷积层中,输入通道数为256,输出通道数为256,卷积核大小为3*3,步长为1,填充为1;所述第三前端池化层中,池化核大小为2*2,步长为2,填充为0,采用最大池化;
所述第四前端特征网络包括按顺序相连的第七前端卷积层和两个第八前端卷积层;所述第四前端特征网络的输入即为所述第七前端卷积层的输入,连接所述第三前端特征网络的输出;所述第四前端特征网络的输出即为位于尾端的所述第八前端卷积层的输出,输出通道数为512、尺寸大小为输入图像1/8的第四前端特征图ff4;
所述第七前端卷积层中,输入通道数为256,输出通道数为512,卷积核大小为3*3,步长为1,填充为1;所述第八前端卷积层中,输入通道数为512,输出通道数为512,卷积核大小为3*3,步长为1,填充为1;
所述前端特征融合网络包括第一特征修整网络、第五前端池化层、前端特征堆叠层和第十前端卷积层;所述前端特征融合网络的输入连接所述第一前端特征网络、第二前端特征网络、第三前端特征网络和第四前端特征网络的输出;其中,所述第一特征修整网络的输入连接所述第一前端特征网络的输出;所述第五前端池化层的输入连接所述第二前端特征网络的输出;所述前端特征堆叠层的输入连接所述第一特征修整网络的输出、所述第五前端池化层的输出、第三前端特征网络和第四前端特征网络的输出;所述第十前端卷积层的输入连接所述前端特征堆叠层的输出;所述前端特征融合网络的输出,即为所述第十前端卷积层的输出,也即为所述前端网络的输出,输出通道数为512、尺寸大小为输入图像1/8的前端融合特征图ffv;
所述第一特征修整网络包括按顺序相连的两个第四前端池化层和第九前端卷积层;所述第一特征修整网络的输入也即为位于前端的所述第四前端池化层的输入;所述第一特征修整网络的输出也即为所述第九前端卷积层的输出,输出通道数为128、尺寸大小为输入图像1/8的第五前端特征图ff5;
所述前端特征堆叠层用于将所述第一特征修整网络输出的通道数为128、尺寸大小为输入图像1/8的第五前端特征图ff5、所述第五前端池化层输出的通道数为128、尺寸大小为输入图像1/8的第六前端特征图ff6、所述第三前端特征网络输出的通道数为256、尺寸大小为输入图像1/8的第三前端特征图ff3、所述第四前端特征网络输出的通道数为512、尺寸大小为输入图像1/8的第四前端特征图ff4在通道维度上堆叠,堆叠成通道数为1024、尺寸大小为输入图像1/8的第七前端特征图ff7;
所述第四前端池化层中,池化核大小为2*2,步长为2,填充为0,采用最大池化;所述第九前端卷积层中,输入通道数为64,输出通道数为128,卷积核大小为1*1,步长为1,填充为0;所述第五前端池化层中,池化核大小为2*2,步长为2,填充为0,采用最大池化;所述第十前端卷积层中,输入通道数为1024,输出通道数为512,卷积核大小为1*1,步长为1,填充为0;
所述前端网络中,每个前端卷积层后设有激活函数ReLU;
所述中端网络包括第一中端卷积层、第二中端卷积层、第三中端卷积层、第四中端卷积层、中端特征堆叠层和第五中端卷积层;所述第一中端卷积层、第二中端卷积层、第三中端卷积层和第四中端卷积层按顺序依次相连;所述第一中端卷积层的输入,即为所述中端网络的输入,连接所述前端网络的输出;所述中端特征堆叠层的输入连接所述第一中端卷积层、第二中端卷积层、第三中端卷积层和第四中端卷积层的输出;所述第五中端卷积层的输入连接所述中端特征堆叠层的输出;所述第五中端卷积层的输出,也即为所述中端网络的输出,输出通道数为512、尺寸大小为输入图像1/8的中端融合特征图fmv;
所述中端特征堆叠层用于将所述第一中端卷积层、第二中端卷积层、第三中端卷积层和第四中端卷积层输出的通道数为512、尺寸大小为输入图像1/8的图像在通道维度上堆叠,堆叠成通道数为2048、尺寸大小为输入图像1/8的第五中端特征图像fm5;
所述第一中端卷积层、第二中端卷积层、第三中端卷积层和第四中端卷积层中,输入通道数为512,输出通道数为512,卷积核大小为3*3,步长为1,填充为1;所述第五中端卷积层中,输入通道数为2048,输出通道数为512,卷积核大小为1*1,步长为1,填充为0;
所述中端网络中,每个中端卷积层后不设置激活函数;
所述后端网络包括第一空洞卷积融合网络、第二空洞卷积融合网络和第三空洞卷积融合网络;所述后端网络的输入连接所述前端网络和中端网络的输出;
所述第一空洞卷积融合网络包括第一空洞卷积层、第二空洞卷积层、第一后端堆叠层、第一后端卷积层;所述第一空洞卷积层的输入连接所述中端网络的输出;所述第二空洞卷积层的输入连接所述第一空洞卷积层的输出;所述第一后端堆叠层的输入连接所述第二空洞卷积层的输出和所述前端网络的输出;所述第一后端卷积层的输入连接所述第一后端堆叠层的输出;所述第一后端卷积层的输出,即为所述第一空洞卷积融合网络的输出,输出通道数为512、尺寸大小为输入图像1/8的第一空洞融合图像fl1;
所述第一后端堆叠层用于将所述前端网络输出的通道数为512、尺寸大小为输入图像1/8的前端融合特征图ffv和所述第二空洞卷积层输出的通道数为512、尺寸大小为输入图像1/8的图像在通道维度上堆叠,堆叠成通道数为1024、尺寸大小为输入图像1/8的图像;
所述第一空洞卷积层中,输入通道数为512,输出通道数为512,卷积核大小为3*3,步长为1,填充为1,空洞率为1;所述第二空洞卷积层中,输入通道数为512,输出通道数为512,卷积核大小为3*3,步长为1,填充为2,空洞率为2;所述第一后端卷积层中,输入通道数为1024,输出通道数为512,卷积核大小为1x1,步长为1,填充为0;
所述第二空洞卷积融合网络包括第三空洞卷积层、第四空洞卷积层、第二后端卷积层、第二后端堆叠层和第三后端卷积层;所述第三空洞卷积层的输入连接所述第一空洞卷积融合网络的输出;所述第四空洞卷积层的输入连接所述第三空洞卷积层的输出;所述第二后端卷积层的输入连接所述中端网络的输出;所述第二后端堆叠层的输入连接所述第二后端卷积层的输出和所述第四空洞卷积层的输出;所述第三后端卷积层的输入连接所述第二后端堆叠层的输出;所述第三后端卷积层的输出,也即为所述第二空洞卷积融合网络的输出,输出通道数256、尺寸大小为输入图像1/8的第二空洞融合图像fl2;
所述第二后端堆叠层用于将所述第二后端卷积层输出的通道数为256、尺寸大小为输入图像1/8的图像和所述第四空洞卷积层输出的通道数为256、尺寸大小为输入图像1/8的图像在通道维度上堆叠,堆叠成通道数为512、尺寸大小为输入图像1/8的图像;
所述第三空洞卷积层中,输入通道数为512,输出通道数为512,卷积核大小为3x3,步长为1,填充为1,空洞率为1;所述第四空洞卷积层中,输入通道数为512,输出通道数为256,卷积核大小为3x3,步长为1,填充为2,空洞率为2;所述第二后端卷积层中,输入通道数为512,输出通道数为256,卷积核大小为1x1,步长为1,填充为0;所述第三后端卷积层中,输入通道数为512,输出通道数为256,卷积核大小为1x1,步长为1,填充为0;
所述第三空洞卷积融合网络包括按顺序相连的第五空洞卷积层、第六空洞卷积层和第四后端卷积层;所述第三空洞卷积融合网络的输入即为所述第五空洞卷积层的输入,连接所述第二空洞卷积融合网络的输出;所述第四后端卷积层的输出,也即为所述第三空洞卷积融合网络的输出,也即为所述后端网络的输出,也即为所述人头计数卷积神经网络模型的输出,输出人群密度图;
所述第五空洞卷积层中,输入通道数为256,输出通道数为128,卷积核大小为3x3,步长为1,填充为1,空洞率为1;所述第六空洞卷积层中,输入通道数为128,输出通道数为64,卷积核大小为3x3,步长为1,填充为2,空洞率为2;所述第四后端卷积层中,输入通道数为64,输出通道数为1,卷积核大小为1x1,步长为1,填充为0;
所述后端网络中,每个后端卷积层和每个空洞卷积层后设有激活函数ReLU。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏金智教育信息股份有限公司,未经江苏金智教育信息股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110266080.5/1.html,转载请声明来源钻瓜专利网。