[发明专利]一种基于改进型LeNet-5网络的行人识别算法有效
申请号: | 202011538165.6 | 申请日: | 2020-12-23 |
公开(公告)号: | CN112633169B | 公开(公告)日: | 2023-05-30 |
发明(设计)人: | 王燕妮;余丽仙;孙雪松;刘祥;翟会杰 | 申请(专利权)人: | 西安建筑科技大学 |
主分类号: | G06V20/58 | 分类号: | G06V20/58;G06V10/774;G06V10/776;G06V10/764;G06V10/82;G06N3/0464;G06N3/048;G06N3/08;G06N3/082 |
代理公司: | 西安恒泰知识产权代理事务所 61216 | 代理人: | 李郑建 |
地址: | 710055*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 改进型 lenet 网络 行人 识别 算法 | ||
1.一种基于改进型LeNet-5网络的行人识别算法,其特征在于,包括以下步骤:
1)将从网上裁剪的部分单行人图片、部分低像素手机拍摄的生活中行人图片以及戴姆勒行人检测标准数据库中选取的部分图片进行归一化处理,处理为48x64的图片,得到样本集;
所述戴姆勒行人检测标准数据库是一个公开行人检测和分类数据集;从戴姆勒行人检测标准数据库中选取的部分图片是采用车载摄像机获取的图片,图片大小均为18x36;
2)统一样本集中的图片维度,并对样本集进行标注处理,然后将样本集中的图片进行灰度化,并分为训练集、验证集和测试集;
所述的对样本集进行标注处理是,含有行人的图片标注为1,不含行人的背景图标注为2;
3)对LeNet-5网络进行修改,构建改进型LeNet-5网络;即,在常规的LeNet-5网络基础上,新引入两层卷积层、两层池化层和BN层;两层卷积层和两层池化层分别连接于LeNet-5中的第二个池化层之后,BN层置于网络激活函数层的前面,并将LeNet-5中最后的Gaussianconnection分类层改为softmax;其中,在新引入的两个池化层中,第二个池化层为平均池化;
改进后的LeNet5网络结构为:
(1)第一层卷积层输入的数据为处理后的48x64x1的灰度图像,输入的卷积核大小为5x5,个数为6个,步长为1,边缘扩充为2;该层还包含了BN层、降采样层和Relu激励函数;
(2)第二层卷积层与第一个卷积层完全相同;输入的数据为24x32x6,通过该层得到的输出特征图为12x16x16;
(3)第三卷积层的输入数据为12x16x16,该层包含32个大小为5x5的卷积核;从结构上来看,该层与第二层的结构完全一致;
(4)第四层卷积层输入数据为6x8x32,该层包含64个大小为5x5的卷积核;该层的池化层改用平均池化,用于深层网络背景信息的提取和融合;
(5)第五层全连接层的输入数据为3x4x64,包含120个大小为3x4的卷积核;同时该层还包含了BN操作和relu操作,目的是为了归一化和激活处理;
(6)第6层为全连接层,输入的数据尺寸为1x1x120,输出维度为2;由于最终需要的将行人和背景进行区分,所以需要的是二分类,于是将正样本标注为1,负样本标注为2;
(7)最后一层为输出层,使用softmax_loss对上述提取的特征进行整合和归一化处理,其本质上就是利用cross entropy做损失函数,在生成概率时用softmax,作为最终的2分类输出;
4)将训练集输入该改进型LeNet-5网络进行训练,通过验证集准确率选取最终训练模型,将所得最终训练模型用于测试集进行准确率测试;
训练集输入该改进型LeNet-5网络进行训练算法如下:
正向传播和反向传播:
正向传播就是通过卷积核不停的对图像进行滤波处理提取特征,同时计算整个网络的loss值,然后通过反向传播运算,来更新网络权值,调整整个网络,使网络的损失降到最小;正向传播中的主要运算有卷积,激活函数以及下采样;
卷积运算公式如下:
式中:k表示的是卷积核;表示的是输入;表示的是输出;表示的是偏置;f表示的是激活函数;Mj表示的是第j个特征图;l表示的是层数;
池化层通常在卷积层之后进行,池化层主要起的功能是下采样,该操作运算公式如下:
式中:表示的是输入;表示的是输出;表示的是偏置;f表示的是激活函数;β对应的是每个输出的特征图;
使用的激活函数是relu,该激活函数运算如下:
f(x)=max(0,x) (3)
反向传播是通过使用反向求导,来优化网络和权值,从而减小网络最终计算出的损失函数的值,计算损失函数的公式如下所示:
式中:L表示计算得到的损失值,y表示的是正向传播之后得到的实际损失值,表示经过relu函数的输出,代表的是样本标签为1的概率;
反向传播是整个网络的关键,网络用随机梯度下降法来寻找最优值;梯度更新的计算公式如下:
式中:表示第l-1层的第k个神经元连接到第l层的第j个神经元的权值;表示第l层的第j个神经元的偏置;表示第l层的第j个神经元的输入;表示第l层的第j个神经元的输出;E表示损失函数,l表示第l层,t表示输出的期望值,式(8)中的计算得到的表示的是网络权值更新后的值;
在改进型LeNet-5网络的设置中,总共设置30个epoch,对于学习率使用的是可变的学习率,也就是随着迭代次数的增加,学习率会相应的减少,稳定最后的训练,防止梯度爆炸。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安建筑科技大学,未经西安建筑科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011538165.6/1.html,转载请声明来源钻瓜专利网。