[发明专利]利用软交叉熵损失的语义分段在审
申请号: | 201980073301.8 | 申请日: | 2019-10-10 |
公开(公告)号: | CN113056769A | 公开(公告)日: | 2021-06-29 |
发明(设计)人: | 儿嶋环 | 申请(专利权)人: | 索尼集团公司 |
主分类号: | G06T7/11 | 分类号: | G06T7/11 |
代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 周磊 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 利用 交叉 损失 语义 分段 | ||
提供了一种用于利用软交叉熵损失进行语义分段的系统和方法。该系统将第一彩色图像输入到用于多类分类任务的语义分段网络的输入层。语义分段网络基于输入的第一彩色图像以辅助步幅生成第一特征图,作为语义分段网络的辅助层的输出。该系统从辅助层提取生成的第一特征图,并基于提取出的第一特征图将概率图计算为多类分类任务的类集合上的软标签的集合。该系统还针对辅助步幅计算该计算出的概率图与地面真实概率图之间的辅助交叉熵损失,并基于计算出的辅助交叉熵损失来训练用于多类分类任务的语义分段网络。
相关申请的交叉引用/通过引用合并
本申请要求于2018年11月12日提交的美国临时专利申请序列No.62/758,781的优先权,其全部内容通过引用并入本文。
技术领域
本公开的各种实施例涉及机器学习和计算机视觉。更具体而言,本公开的各种实施例涉及用于利用软交叉熵损失进行语义分段的系统和方法。
背景技术
语义分段是场景理解的关键组成部分之一,这是将语义标签指派给各个像素的任务。自主移动代理的应用领域非常广泛,诸如自动驾驶汽车、无人机和娱乐机器人、以及增强现实设备和监控。这些应用领域要求高效的推理速度和处理高分辨率图像的能力。语义分段的最新进展显示出在视觉感知任务中的重大进展。但是,获得能够在资源受限的计算环境(尤其是以有限的存储器和计算资源操作的移动环境)中运行高分辨率图像的高效的多合一模型仍然是个挑战。为了在高分辨率图像上获得期望级别的分类准确度,用于语义分段的常规模型创建大参数尺寸并在训练时间期间占用显著大量存储器,这对于像自主车辆这样的移动训练环境不太有用。
如本申请的其余部分以及参考附图所阐述的,通过将所描述的系统与本公开的一些方面进行比较,常规和传统方法的其它限制和缺点对于本领域技术人员将变得明显。
发明内容
如在权利要求中更完整阐述的,基本如至少一个图所示和/或结合至少一个图所描述的,提供了用于利用软交叉熵损失进行语义分段的系统和方法。
可以通过阅读以下对本公开的详细描述以及附图来理解本公开的这些和其它特征以及优点,在附图中,相同的参考标记始终表示相同的部分。
附图说明
图1是图示根据本公开的实施例的用于对输入的图像帧进行语义分段的环境的图。
图2是根据本公开的实施例的用于对输入的图像帧进行语义分段的示例性系统的框图。
图3是根据本公开的实施例的用于对输入的图像帧进行语义分段的示例性电子设备的框图。
图4是图示根据本公开的实施例的用于训练用于多类分类任务的语义分段网络的示例性操作的图。
图5A是图示根据本公开的实施例的语义分段网络的示例性体系架构的图。
图5B、5C和5D是图示根据本公开的实施例的图5A的示例性体系架构中的分支块和上采样层的图。
图6是图示根据本公开的实施例的语义分段网络的另一个示例性体系架构的图。
图7是图示根据本公开的实施例的在图3的电子设备上的图4的语义分段网络的示例性实施方式的图。
图8是图示根据本公开的实施例的用于利用软交叉熵损失进行语义分段的示例性方法的流程图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于索尼集团公司,未经索尼集团公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980073301.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:镜头组件和包括该镜头组件的电子装置
- 下一篇:用于视频译码的头参数集