[发明专利]利用1xH卷积的基于CNN的对象检测方法及装置有效
申请号: | 201911347404.7 | 申请日: | 2019-12-24 |
公开(公告)号: | CN111476262B | 公开(公告)日: | 2023-08-15 |
发明(设计)人: | 金桂贤;金镕重;金寅洙;金鹤京;南云铉;夫硕焄;成明哲;吕东勋;柳宇宙;张泰雄;郑景中;诸泓模;赵浩辰 | 申请(专利权)人: | 斯特拉德视觉公司 |
主分类号: | G06V10/774 | 分类号: | G06V10/774;G06V10/776;G06V10/82;G06N3/0464 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 邓毅;黄纶伟 |
地址: | 韩国庆*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 利用 xh 卷积 基于 cnn 对象 检测 方法 装置 | ||
1.一种基于CNN的对象检测器的参数的学习方法,其特征在于,包括如下步骤:
(a)当获得至少一个训练图像时,学习装置,(i)使至少一个卷积层对上述训练图像应用至少一次卷积运算来生成至少一个初始特征图,(ii)使RPN利用上述初始特征图而生成与位于上述训练图像内的至少一个对象分别对应的至少一个候选框,(iii)(iii-1)使池化层对在上述初始特征图上与上述候选框分别对应的各个区域应用至少一次池化运算来生成各个上述候选框的池化特征图,并使第1转置层将各个上述候选框的上述池化特征图上的对应的相同的各个位置的各个像素按照各个上述候选框级联来生成综合特征图,或者(iii-2)使上述池化层对在上述初始特征图上与各个上述候选框对应的各个区域应用池化运算来生成各个上述候选框的上述池化特征图,并使上述池化层将各个上述候选框的上述池化特征图上的对应的相同的各个位置的各个上述像素按照各个上述候选框级联来生成上述综合特征图;
(b)上述学习装置,(b1)(i)使第1重塑层将由上述综合特征图的所有通道中的各自对应的H1个通道构成的各个组内的各个特征级联来生成第1重塑特征图,(ii)使1xH1卷积层对上述第1重塑特征图应用1xH1卷积运算来生成调整了卷的第1调整特征图,(b2)(i)使第2重塑层将由上述第1调整特征图的所有通道中的各自对应的H2个通道构成的各个组内的各个特征级联而生成第2重塑特征图,(ii)使1xH2卷积层对上述第2重塑特征图应用1xH2卷积运算来生成调整了卷的第2调整特征图;及
(c)上述学习装置,(c1)(i)使第2转置层按照各个上述像素将上述第2调整特征图分离而生成各个上述候选框的像素级特征图,并使分类层利用各个上述候选框的上述像素级特征图来生成关于各个上述候选框的对象类信息,(ii)使上述分类层按照各个上述像素将上述第2调整特征图分离来生成各个上述候选框的上述像素级特征图,使上述分类层利用各个上述候选框的上述像素级特征图而生成关于各个上述候选框的上述对象类信息,然后,(c2)使检测层参照上述对象类信息和各个上述候选框的上述像素级特征图来生成与位于上述训练图像内的上述对象对应的对象检测信息,(c3)使检测损失层参照上述对象检测信息和与此对应的GT来算出至少一个对象检测损失,从而将上述对象检测损失反向传播来学习上述1xH2卷积层、上述1xH1卷积层及上述卷积层中的至少一部分参数,
在将上述候选框的数量设为N,将各个上述候选框的上述池化特征图的宽度设为M1、高度设为M2,将各个上述候选框的上述池化特征图的通道数量设为J的情况下,
在上述(a)步骤中,
上述学习装置,(i)使上述第1转置层将各个上述候选框的上述池化特征图变换成宽度为N、高度为1、通道为M1xM2xJ的上述综合特征图,或者(ii)使上述池化层将各个上述候选框的上述池化特征图变换成宽度为N、高度为1、通道为M1xM2xJ的上述综合特征图,
在将上述1xH1卷积层的过滤器的数量设为K,将上述1xH2卷积层的过滤器的数量设为L的情况下,
在上述(b)步骤中,
上述学习装置使上述第1重塑层生成宽度为N、高度为H1、通道为CEIL的上述第1重塑特征图,使上述1xH1卷积层生成宽度为N、高度为1、通道为K的具备Nx1xK的卷的上述第1调整特征图,
上述学习装置使上述第2重塑层生成宽度为H2、高度为N、通道为CEIL的上述第2重塑特征图,使上述1xH2卷积层生成宽度为N、高度为1、通道为L的具备Nx1xL的卷的上述第2调整特征图,
在上述(c)步骤中,
上述学习装置,(i)使上述第2转置层将上述第2调整特征图变换成与N个上述候选框分别对应的宽度为1、高度为1、通道为L的具备1x1xL的卷的、各个上述候选框的上述像素级特征图,或者(ii)使上述分类层将上述第2调整特征图变换成与N个上述候选框分别对应的宽度为1、高度为1、通道为L的具备1x1xL的卷的、各个上述候选框的上述像素级特征图。
2.根据权利要求1所述的学习方法,其特征在于,
在上述(a)步骤之后,
上述学习装置使RPN损失层参照上述候选框和与此对应的GT来算出至少一个R PN损失,从而将上述RPN损失反向传播来学习上述RPN的至少一部分参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于斯特拉德视觉公司,未经斯特拉德视觉公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911347404.7/1.html,转载请声明来源钻瓜专利网。