[发明专利]图像语义分割模型的训练方法及图像语义分割方法有效

申请号：	201810085275.8	申请日：	2018-01-29
公开（公告）号：	CN108345887B	公开（公告）日：	2020-10-02
发明（设计）人：	袁春;黎健成	申请（专利权）人：	清华大学深圳研究生院
主分类号：	G06K9/34	分类号：	G06K9/34;G06K9/62
代理公司：	深圳新创友知识产权代理有限公司 44223	代理人：	徐罗艳
地址：	518055 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	图像语义分割模型训练方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种图像语义分割模型的训练方法及图像语义分割方法，训练方法包括：将预先标注语义分割信息的训练图像分别输入到至少两个基础语义分割子模型中，得到对应的至少两个包含语义信息的特征图；将至少两个特征图及其预先标注的语义分割信息同时输入到注意力模型中，以计算出每个特征图的权重；利用融合单元将至少两个所述特征图按相应权重进行融合，得到所述训练图像的预测语义分割结果；依据所述训练图像的预测语义分割结果和预先标注的语义分割信息，对至少两个基础语义分割子模型和注意力模型的参数进行修正；利用若干训练图像不断迭代执行上述训练步骤直至至少两个基础语义分割子模型和注意力模型的训练结果满足预设的收敛条件。

技术领域

本发明涉及计算机视觉与图像处理领域，尤其是涉及一种基于注意力模型融合的图像语义分割方法和模型的训练方法。

背景技术

图像语义分割是计算机视觉领域中一项重要的研究内容，其目标是将图像分割成具有不同语义信息的区域，并且标注每个区域相应的语义标签，例如通过对一幅图像进行图像语义分割后可为图像中的物体添加语义标签(譬如桌子、墙壁、天空、人、狗等)，可应用于例如无人驾驶等领域。

目前，用于图像语义分割的最主流的解决方案主要基于卷积神经网络(Convolutional Neural Networks，简称CNN)，该网络学习图像的语义特征表示。比如全卷积网络(Fully Convolutional Networks，简称为FCN)通过构建包含卷积层、池化层和反卷积层的卷积神经网络，以端到端的方式将任意大小的输入图像转换为像素级的分类结果，为研究人员和工程师提供了一种简单而有效的方法来解决图像语义分割问题。DeepLab和DilatedNet把全卷积网络中普通卷积替换为扩散卷积使得语义分割预测时结合更多的上下文和场景信息。

然而，这些模型还存在各种各样的问题，特别是对于复杂的对象和多样的场景。例如全卷积网络忽略了图像的全局信息和潜在有用的场景语义上下文信息，因此容易将一些物体的某些部分错误地标注为其他物体。而DeepLab和DilatedNet扩大了滤波器的感受野以融合更多的上下文，但遗漏了详细的信息，会把同一个物体预测成多个标签。

最近一些学者提出融合同一个模型不同层提取的特征或不同模型提取的特征的方法。比较简单的融合方法有求和、求最大值和合并操作。求和即把所有特征图按每个元素进行相加求和；求最大值则把所有特征图按每个元素求最大值而得；合并操作把所有特征按某个维度进行合并操作。这些方法虽然计算简单，但往往只对某些类型的特征适用，而且还有可能融合之后效果提升不明显甚至不如原来的特征。

以上背景技术内容的公开仅用于辅助理解本发明的发明构思及技术方案，其并不必然属于本专利申请的现有技术，在没有明确的证据表明上述内容在本专利申请的申请日前已经公开的情况下，上述背景技术不应当用于评价本申请的新颖性和创造性。

发明内容

本发明针对特征融合效果提升不明显的问题，提出了一种基于注意力模型融合的图像语义分割方法，通过采用多个基础的语义分割子模型对输入图像分别提取出具有语义信息的特征，并通过注意力模型合理地计算出每个特征融合的权重，再依据相应权重进行多个特征图的融合，最后使用融合后的特征进行分割结果的预测，从而达到提高图像语义分割预测准确率的目的。

本发明为达上述目的所提出的其中一种技术方案如下：

一种图像语义分割模型的训练方法，用于训练一基于注意力模型融合的图像语义分割模型，所述图像语义分割模型包括至少两个基础语义分割子模型、一注意力模型以及一融合单元；所述训练方法包括：

S1、将预先标注语义分割信息的训练图像分别输入到所述至少两个基础语义分割子模型中，得到所述训练图像对应的至少两个包含语义信息的特征图；

S2、将所述训练图像的至少两个所述特征图及其预先标注的语义分割信息同时输入到注意力模型中，以通过所述注意力模型计算出所述训练图像的每个特征图的权重；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于清华大学深圳研究生院，未经清华大学深圳研究生院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810085275.8/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]图像语义分割模型的训练方法及图像语义分割方法有效

专利文献下载