[发明专利]一种基于注意力掩模融合的全卷积目标检测方法有效
申请号: | 201910204836.6 | 申请日: | 2019-03-18 |
公开(公告)号: | CN111723829B | 公开(公告)日: | 2022-05-06 |
发明(设计)人: | 何小海;董潇潇;吴晓红;卿粼波;滕奇志;吴小强;余艳梅 | 申请(专利权)人: | 四川大学 |
主分类号: | G06V10/764 | 分类号: | G06V10/764;G06K9/62;G06N3/04;G06N3/08;G06V10/80;G06V10/774 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610065 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 注意力 融合 卷积 目标 检测 方法 | ||
本发明公开了一种基于注意力掩模融合的全卷积目标检测方法,涉及计算机视觉与智能信息技术领域。首先,通过卷积神经网络提取特征,经过初步二分类和边界框回归后得到一系列预选框;然后,将上述预选框输入到特征金字塔结构中,同时融合注意力掩模模块得到更具表征性的特征;最后经过多分类和边界框回归,不断训练迭代模型,得到多尺度的全卷积目标检测结果。该方法不仅实现了精度的有效提升,还能保持高效的速度,可应用于机器人视觉、消费电子、自动驾驶、人机交互、智能视频监控等场所。
技术领域
本发明涉及一种基于注意力掩模融合的全卷积目标检测方法,属于计算机视觉与智能信息技术领域。
背景技术
目标检测是很多计算机视觉任务的基础,其定义如下:对于给定的图像,目标检测的目的是准确地定位和正确分类尽可能多的对象实例,同时避免错误地检测背景或重复检测相同的实例。其中,类别可以是行人、小鸟、自行车等等,定位以包围框(bounding box)的形式存在。目标检测在人工智能和信息技术的诸多领域如机器人视觉、消费电子、自动驾驶、人机交互、基于内容的图像检索、智能视频监控等有着广泛的应用。
目前,基于深度学习的目标检测算法主要分为两类,一是单阶段方法,二是两阶段方法。两阶段方法将检测问题划分为两个过程,首先产生区域建议,然后对候选区域进行分类和边界框回归,这类算法的典型代表是基于区域建议的R-CNN系列算法,检测精度较高但速度难以达到实时;单阶段方法采用基于回归的思想,跳过区域建议阶段,直接产生物体的类别概率和位置坐标值,经过单次检测即可得出最终的检测结果,故在检测速度上有更好的结果,其代表性算法有:YOLO,SSD,Focal Loss等。近年来,注意力机制在计算机视觉中的应用逐渐增加,现有的视觉注意模型可分为软注意模型和强注意模型。软注意模型以确定性的方式预测注意区域,由于它是可微的,故可以使用反向传播进行训练,让神经网络学到每一张新图片中需要关注的区域,因而形成了注意力。将注意力机制结合到目标检测中,让网络自适应地关注感兴趣区域,近来受到了较多的关注。
发明内容
本发明提出了一种基于注意力掩模融合的全卷积目标检测方法,目的在于结合注意力掩模模块和特征金字塔模块得到更具表征性特征,然后进行目标检测。
本发明通过以下技术方案来实现上述目的:
(1)使用基准网络VGG16提取特征,经过6个步幅的卷积和下采样操作后,得到多尺度全卷积特征层。
(2)使用基本的卷积层conv4_3,conv5_3,fc7以及conv6_2进行初步的二分类和包围框回归操作,以得到预选框,减少负样本搜索。
(3)将注意力掩模模块Attention Mask Module(AMM)和特征金字塔结构结合起来,即将顶层特征同底层特征融合后,再辅之以注意力信息AMM,得到更加有效的特征P1,P2,P3,P4。
(4)最后将上述特征直接用于多分类和回归操作,不断训练迭代模型,得到最终的检测结果。
附图说明
图1为本发明基于注意力掩模融合的全卷积目标检测方法框架图。
图2为本发明基于注意力掩模模块结构图。
图3为本发明基于特征金字塔融合模块结构图。
具体实施方式
下面结合附图对本发明作进一步说明:
构建注意力掩模模块方法如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910204836.6/2.html,转载请声明来源钻瓜专利网。