[发明专利]基于CNN的监视用客体检测器的方法及装置有效
申请号: | 201911291795.5 | 申请日: | 2019-12-16 |
公开(公告)号: | CN111488786B | 公开(公告)日: | 2023-09-08 |
发明(设计)人: | 金桂贤;金镕重;金寅洙;金鹤京;南云铉;夫硕焄;成明哲;吕东勋;柳宇宙;张泰雄;郑景中;诸泓模;赵浩辰 | 申请(专利权)人: | 斯特拉德视觉公司 |
主分类号: | G06V20/52 | 分类号: | G06V20/52;G06V10/25;G06V10/46;G06V10/82;G06N3/0464;G06N3/084 |
代理公司: | 北京东方亿思知识产权代理有限责任公司 11258 | 代理人: | 杨佳婧 |
地址: | 韩国庆*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 cnn 监视 客体 检测器 方法 装置 | ||
本发明涉及一种基于能够根据客体尺度转换模式的CNN的监视用客体检测器的学习方法。本发明提供一种学习方法,包括以下步骤:学习装置(a)使卷积层对图像应用卷积运算而输出特征图,并且使RPN输出图像内的ROI;(b)使池化层按相应尺度池化特征图上的各个ROI区域,从而使第1FC层输出第二特征向量,并且使第2FC层输出类信息和回归信息;以及(c)使损失层参照类信息、回归信息及与类信息、回归信息对应的GT来生成类损失和回归损失。
技术领域
本发明涉及一种基于能够根据客体尺度转换模式的CNN(Convolutional NeuralNetwork,卷积神经网络)的监视用客体检测器的学习方法及学习装置以及利用其的测试方法及测试装置,更详细而言,涉及一种如下的学习方法及学习装置以及利用其的测试方法及测试装置,该学习方法为基于所述CNN的所述客体检测器的学习方法,包括:步骤a:在输入包含至少一个客体的训练图像的情况下,学习装置使至少一个卷积层对所述训练图像应用至少一次卷积运算以输出至少一个特征图,并且使区域建议网络(Region ProposalNetwork,RPN)利用所述特征图来输出所述训练图像内的k个感兴趣区域(Region OfInterest,ROI);步骤b:所述学习装置(i)使具有互不相同的池化尺度的各个池化层按相应尺度池化所述特征图上与所述k个ROI对应的各个区域以按相应尺度分别输出与所述k个ROI分别对应的k个第一特征向量,(ii)使与所述各个池化层对应的各个第1全连接层(Fully Connected Layer,FC Layer)按相应尺度分别利用所述k个第一特征向量以按相应尺度分别输出k个第二特征向量,(iii)使至少一个第2FC层按相应尺度分别利用所述k个第二特征向量以输出与所述k个ROI分别对应的各个类信息和各个回归信息;以及步骤c:所述学习装置使第一损失层参照所述各个类信息、所述各个回归信息及与所述各个类信息、所述各个回归信息对应的第1真实值(Ground Truth,GT)来生成与所述k个ROI对应的类损失和回归损失,从而通过利用所述类损失和所述回归损失的反向传播来学习所述第2FC层、所述第1FC层及所述卷积层。
背景技术
对于机器学习(Machine Learning)来说,卷积神经网络(Convolutional NeuralNetwork;CNN或ConvNet)是已成功应用到视觉图像分析的深度前馈人工神经网络(Deep,Feed-Forward Artificial Neural Network)的一类(Class)。
图1表示现有技术所涉及的使用CNN的学习过程。
图1是表示将学习装置所预测到的边界框(Bounding Box)和与此对应的GT的边界框相比较的过程的图。
参照图1,现有的学习装置预测边界框并将该预测到的边界框与GT的边界框相比较而获取至少一个损失值。在此,损失值是指预测到的边界框与GT的边界框之间的差值。例如,图1中的损失值可包含dxc,dyc,dw,dh。
首先,图1的学习装置获取RGB图像并将该RGB图像输入到卷积层中。在RGB图像通过卷积层之后,生成特征图,使得RGB图像的宽度和高度缩小,但信道数量增加。
图1的学习装置能够通过将特征图输入到区域建议网络而生成建议盒,并且通过对包含在与特征图上的建议盒对应的区域中的像素数据应用最大池化(Max Pooling)或平均池化(Average Pooling)运算中的至少一者而生成经池化的特征图。在此,最大池化为针对各个细部区域从与此对应的建议盒内的各个细部区域中将最大值分别选定为每个细部区域的代表值的方法,平均池化为针对各个细部区域将与此对应的建议盒内的关于各个细部区域的各个平均值计算为各个代表值的方法。
接着,图1的学习装置将经池化的特征图输入到FC层(Fully Connected Layer,全连接层)中。此时,学习装置能够使FC层通过分类运算来确认所述RGB图像上的客体的种类是什么。经池化的特征图也可以称作“特征向量(Feature Vector)”。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于斯特拉德视觉公司,未经斯特拉德视觉公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911291795.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:分布式光纤声波及振动融合式传感系统
- 下一篇:基于调度的移动应用