[发明专利]基于GoogLeNet的卷积神经网络行人识别方法有效
申请号: | 201810940919.7 | 申请日: | 2018-08-17 |
公开(公告)号: | CN110837762B | 公开(公告)日: | 2022-09-27 |
发明(设计)人: | 屈惠明;龙泉舟;刁海玮;傅晓梦;崔振龙;刘李凤 | 申请(专利权)人: | 南京理工大学 |
主分类号: | G06V40/10 | 分类号: | G06V40/10;G06V10/774;G06V10/764;G06V10/82 |
代理公司: | 南京理工大学专利中心 32203 | 代理人: | 薛云燕 |
地址: | 210094 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 googlenet 卷积 神经网络 行人 识别 方法 | ||
1.一种基于GoogLeNet的卷积神经网络行人识别方法,其特征在于,包括以下步骤:
步骤1,开始操作,加载所需的工具包;
步骤2,定义卷积神经网络即定义GoogLeNet的神经网络模型及其神经网络结构;
步骤3,加载VOC2007+2012数据集即标注数据集中的文件夹及图片位置,生成验证和训练所需批次;
步骤4,对训练图片生成7*7网格并分别预测类别信息、坐标信息、置信度值,进行网络检测,具体步骤如下:
步骤4-1、将一张图片生成网格
将一张图片分成7*7个网格,物体的中心落在这个网格中此网格就负责预测这个物体;最后一层输出为(7*7)*(2*5+1)的维度,每个1*1*11的维度对应原图7*7个网格中的一个,1*1*11中含有class和bounding box,class对应类别预测,bounding box对应坐标预测;
步骤4-2、预测bounding box的坐标
每个网格要预测2个bounding box的坐标即X,Y,W,H,其中:中心坐标X,Y相对于对应的网格归一化到0-1之间,W,H用图像的宽度和高度归一化到0-1之间;每个bounding box除了要回归自身的位置之外,还要附带预测一个置信度值,该置信度值代表所预测的boundingbox中含有目标的置信度和预测的准确度两重信息;如果有人工标记的物体ground truebox落在一个网格里,第一项取1,否则取0;第二项是预测的bounding box和实际的groundtruth box之间的交并比IOU值;即:每个bounding box要预测X、Y、W、H、置信度共5个值,2个bounding box共10个值,对应1*1*11维度特征中的前10个;
步骤4-3、预测class类别信息
每个网格还要预测class即类别信息,官方权重中包含20个类别,现在只有person即人物一个类别;7*7的网格,每个网格要预测2个bounding box和1个类别概率,输出就是7*7*(5*2+1);即通用公式为:S*S个网格,每个网格要预测B个bounding box还要预测C个class,输出就是S*S*(5*B+C)的一个张量;其中,class信息是针对每个网格的,confidence信息是针对每个bounding box的;
步骤5,进行网络测试,得到训练后的检测结果;
步骤6,定义模型损失函数;
步骤7,加载已训练好的权重,准备进行随机图像识别;
步骤8,输出并展示图像识别效果。
2.根据权利要求1所述的基于GoogLeNet的卷积神经网络行人识别方法,其特征在于,步骤2所述定义GoogLeNet的神经网络模型及其神经网络结构,具体为:
卷积层进行计算:
其中,表示第l层的第j个图像特征,为网络权重即卷积核,f(·)为激活函数,为偏置,为网络的输入,i代表像素值,l代表层数,Mj代表输入层的感受野。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810940919.7/1.html,转载请声明来源钻瓜专利网。