[发明专利]一种实时图像语义分割装置及分割方法有效
申请号: | 202010306188.8 | 申请日: | 2020-04-17 |
公开(公告)号: | CN111626298B | 公开(公告)日: | 2023-08-18 |
发明(设计)人: | 周军;白兴;张鹏远;颜永红 | 申请(专利权)人: | 中国科学院声学研究所;北京中科信利技术有限公司 |
主分类号: | G06V10/26 | 分类号: | G06V10/26;G06V10/82;G06N3/0464 |
代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 陈霁 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实时 图像 语义 分割 装置 方法 | ||
本发明提供一种实时图像语义分割装置及分割方法。在一个实施例中,将原始图像输入编码器,提取出至少两个大小不同的编码图像;将所述至少两个大小不同的编码图像输入第一解码器,提取出主特征图;将所述至少两个大小不同的编码图像输入第二解码器,提取出边缘特征图;根据所述主特征图和边缘特征图计算所述原始图像的最终损失;并根据最终损失训练所述主解码器和所述边缘解码器;将待预测图像通过编码器处理以后输入到主解码器中,得到主特征图。使用了两个结构相同的解码器,一个用于训练整体,一个用于训练边缘,在训练时使用其中的一个解码器检测目标边缘处的特征,使得能够更好的对目标边缘处的像素进行分割。
技术领域
本发明涉及图像语义分割技术领域,尤其涉及一种实时图像语义分割装置及分割方法。
背景技术
随着深度学习技术的快速发展,计算机视觉领域也迎来了一波发展热潮。在实际应用中,无论是物体检测还是自动驾驶技术,计算机视觉技术都是不可或缺的。图像语义分割是图像处理的基础算法,所以其性能对后续的应用有很大的影响。因此,寻找一种高效的图像语义分割方法具有极为重要的现实意义和较强的应用价值。
图像语义分割将图像分割和目标识别相结合,将图像分成具有特定语义的像素组,识别每个区域的类别,最终得到分类图。2015年,Long等在CVPR上的论文中提出的模型首先将深度语义分割的潮流转向全卷积神经网络。所谓全卷积的意思就是在网络结构中摒弃全连接层,与之前使用CNN进行图像语义分割的方法相比,FCN对输入图像的大小没有限制,并且可以实现端到端的训练。随后,许多研究人员在FCN基础上提出了各种用于语义分割的神经网络算法。
语义分割模型面临两个主要问题:恢复输入图像的分辨率和扩大感受野。最简单的恢复输入分辨率的方法就是避免下采样。通常用步长为1的池化层来代替步长为2的池化层,在后续的卷积层中使用空洞卷积。但是,这种方法增加了深层特征图的分辨率,增加了计算复杂度,以目前的计算能力,不能实现实时分割的效果。
另一种方法是在下采样过后的特征图上做预测然后通过上采样特征图逐渐恢复分辨率。这个过程可以通过结合语义信息丰富的深层特征图和空间信息丰富的浅层特征图来完成。
目前最优的图像语义分割方法使用的编码器都是深度全卷积神经网络,如ResNet、MobileNet,这些方法需要巨大的计算资源。许多重要的应用如自动导航、辅助驾驶需要处理像素非常高的图像而且必须要注意到200米外的行人。同时,这些应用为了能实时判断,需要非常低的延迟。这些要求增加了计算压力。
最简单的实时图像语义分割方法是使用在ImageNet上预训练过的分类网络,去掉其最后的池化、全连接层后,将特征图输入像素级的损失函数来获得预测值。这样的模型预测速度非常快,但是精度非常低。首先,因为预测值的分辨率非常小,只有输入图像的1/32,所以很难被识别。其次,因为这种模型的感受野不大,所以难以分类大目标(如公共汽车和卡车)。
发明内容
有鉴于此,本申请实施例提供了一种实时图像语义分割装置及分割方法。
第一方面,一种实时图像语义分割装置,包括:
编码器,用于对输入的原始图像进行处理,提取出至少两个大小不同的编码图像;
第一解码器,用于将所述至少两个大小不同的编码图像输入至少两个分组卷积横向连接模块中进行卷积处理得到至少两个特征图;其中,所述至少两个特征图中的第二特征图是由第一分组卷积横向连接模块中输出的第一特征图进行上采样后与第二分组卷积横向连接模块输出的特征图相加得到,所述第一分组卷积横向连接模块和所述第二分组卷积横向连接模块具有相同的结构;
将所述至少两个特征图输入到至少两个并行分组全局卷积模块中进行卷积处理,将所述至少两个并行分组全局卷积模块输出的至少两个特征图进行上采样后输入到卷积层,得到主特征图;
第二解码器,用于将所述至少两个大小不同的编码图像输入到第二解码器,得到边缘特征图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所;北京中科信利技术有限公司,未经中国科学院声学研究所;北京中科信利技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010306188.8/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序