[发明专利]基于RCNN的屏柜的开关与指示灯定位和状态识别方法有效
申请号: | 201711340894.9 | 申请日: | 2017-12-14 |
公开(公告)号: | CN108010025B | 公开(公告)日: | 2022-05-13 |
发明(设计)人: | 齐冬莲;马必焕;闫云凤;张建良;吴越;李超勇 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06T7/00 | 分类号: | G06T7/00;G06V10/764;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京睿智保诚专利代理事务所(普通合伙) 11732 | 代理人: | 周新楣 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 rcnn 开关 指示灯 定位 状态 识别 方法 | ||
1.一种基于RCNN的屏柜的开关与指示灯定位和状态识别方法,包括以下步骤:
1)采集包含有指示灯目标物和/或开关目标物的屏柜样本图像;
2)遍历所有屏柜样本图像,对每张图像用包围框针对目标物进行标记处理,包围框包围完整的目标物,并记录包围框的左上角和右下角的横纵坐标以及包围框中目标物的种类,形成获得训练集;
3)采用尺寸缩放方法进行缩放处理:针对训练集中具有包围框的屏柜样本图像,进行尺度缩放,分别将每张图像和包围框中较长边变换到预设目标尺寸,较短边根据较长边变换到预设目标尺寸的缩放尺度进行相同比例缩放;
4)采用Imagenet数据集输入预训练模型进行预训练,预训练中调节预训练模型中的网络参数,直至模型训练误差loss下降到10%以下结束训练,获得预训练后模型;
5)采用步骤3)中缩放处理后的训练集输入预训练后模型进行针对训练,不断迭代训练直至模型训练误差loss趋于稳定,训练结束获得的模型作为屏柜状态检测模型;
6)实时采集屏柜待测图像按照与步骤3)中相同的尺寸缩放方法进行缩放后作为步骤5)获得的屏柜状态检测模型的输入,屏柜状态检测模型输出后,将输出的分类结果中置信度大于90%的分类结果保留,作为屏柜待测图像的最终识别结果;
所述步骤4)和步骤5)中的预训练后模型采用RCNN模型:RCNN模型由特征提取网络、区域检测网络、分类网络和Softmax分类器构建而成,具体是:先构建从屏柜样本图像中提取多维图像特征的特征提取网络,接着将特征提取网络的输出作为输入构建提取图像中目标物可能性区域的区域检测网络,然后将特征提取网络的输出作为输入构建将多维图像特征重新映射到与屏柜样本图像一致的尺度空间的分类网络;最后将分类网络和区域检测网络的输出共同作为Softmax分类器的输入,Softmax分类器输出分类结果并作为RCNN模型的输出;
所述的RCNN模型具体为:
所述的特征提取网络采用一个四层的卷积神经网络结构:
第一层,先使用卷积层,卷积层使用大小为7×7的48个卷积滤波器,卷积步幅为2,输出48个任意大小的特征图;获得卷积层的输出后,使用BN层进行归一化处理,然后使用ReLU函数作为激活函数进行激活,最后再用一个窗口大小为3×3的最大池化层进行池化,最大池化层的采样步幅为2;
第二层,先使用卷积层,卷积层使用大小为5×5的96个卷积滤波器,卷积步幅为2,输出96个任意大小的特征图;获得卷积层的输出后,使用BN层进行归一化处理,然后使用ReLU函数作为非线性激活函数进行激活,最后再用一个窗口大小为3×3的最大池化层进行池化,最大池化层的采样步幅为2;
第三层,先使用卷积层,卷积层使用大小为3×3的96个卷积滤波器,卷积步幅为1,并设置卷积偏距pad为1使输入图的维度等于输出图,输出96个任意大小的特征图;
第四层,先使用卷积层,卷积层使用大小为3×3的48个卷积滤波器,卷积步幅为1,并设置卷积偏距pad为1,卷积后再使用ReLU函数作为激活函数进行激活;
所述的区域检测网络具体采用如下结构:
先使用卷积层,卷积层使用大小为3×3的48个卷积滤波器,卷积步幅为1,输出48个任意大小的特征图;获得卷积层的输出后,采用可能性区域检测层对输入的特征图进行处理,以特征图的每个像素点为可能性区域的中心生成产生三种面积尺度下三种长宽比的九个可能性区域,三种面积尺度分别为16384像素平方面积、65536像素平方面积、262144像素平方面积,三种长宽比1:1、1:2、2:1,计算每个可能性区域与包围框的重叠率,取重叠率大于0.7的可能性区域作为正样本,取重叠率小于0.3的可能性区域作为负样本,从正样本中选取重叠率最大的前150个可能性区域,从负样本中随机选取150个可能性区域,最终获得300个可能性区域作为预测可能性区域;
获得预测可能性区域后,再采用两个全连接层处理输出256维的特征,然后使用边框回归层处理,边框回归层输出边框,获得边框的四个元素,四个元素分别是边框回归层所输出边框的左上角的横纵坐标x、y和边框回归层所输出边框的宽w、高h;以边框作为目标物可能性区域;
所述分类网络具体采用如下结构:
针对输入的每一个特征图使用一个池化层处理,输出的特征图固定为7×7,然后将输出的特征图输入一个三层的全连接网络,其中第一层全连接网络具有1000个维度输出,第二层具有256个维度输出,第三层具有4个维度输出,第三层的全连接网络的输出输入到Softmax分类器;
所述特征提取网络采用的BN层的计算具体是:
其中,i表示卷积层输出的特征图中像素点的编号,xi表示卷积层输出的特征图中像素点的像素值,m表示卷积层输出的特征图中像素点的数量,μB表示卷积层输出的特征图中所有像素点像素值的均值,表示卷积层输出的特征图中所有像素点像素值的方差,ε表示BN层的归一化偏置,表示卷积层输出的特征图中第i个像素点xi像素值的归一化值,γ表示BN层的学习权重,β表示BN层的学习偏置,yi表示BN层的输出值。
2.根据权利要求1所述的一种基于RCNN的屏柜的开关与指示灯定位和状态识别方法,其特征在于:
所述的屏柜样本图像和屏柜待测图像是指监控摄像头位于屏柜正对面,监控摄像头的镜头以水平正对屏柜中心的水平左偏差30度视角和水平右偏差30度视角之间的范围内以及以水平正对屏柜中心的从上俯视10-69度视角的范围内采集获得图像。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711340894.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种涂布过程中的在线测对齐度装置
- 下一篇:自动化新能源充电桩