[发明专利]图像场景理解的方法及装置有效

申请号：	201611254544.6	申请日：	2016-12-30
公开（公告）号：	CN108268815B	公开（公告）日：	2020-12-25
发明（设计）人：	彭超;俞刚;张祥雨	申请（专利权）人：	北京旷视科技有限公司;北京迈格威科技有限公司
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/62;G06N3/04
代理公司：	北京市磐华律师事务所 11336	代理人：	高伟;刘爱平
地址：	100190 北京***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	图像场景理解方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例提供了一种图像场景理解的方法，包括：获取场景的原始图像；对所述原始图像进行卷积操作，得到卷积输出；通过全局卷积网络对所述卷积输出进行处理，得到处理结果；以及对所述处理结果进行边界精炼，得到图像场景理解的结果。本发明实施例利用全局卷积网络，有效地增大了有效感受野，并进一步利用边界精炼增加了边界的判别性，从而使得系统的整体性能得到有效提升。

技术领域

本发明涉及视频监控领域，更具体地涉及一种图像场景理解的方法及装置。

背景技术

深度学习(Deep Learning)的概念源于人工神经网络的研究。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。在计算机视觉及相关领域，新兴的深度学习方法相比过去传统方法有了长足的进步。卷积神经网络(Convolutional neural network，CNN)是一种深度的监督学习下的机器学习模型，是深度学习的核心操作，它将卷积核(Kernel)与原图像输入进行卷积操作得到输出。

场景理解在视频监控领域有着重要的应用。传统的场景理解系统往往通过全卷积网络(Fully Convolutional Network)来实现，但是这种实现方式没有考虑到有效感受野(receptive field)的局限性。一般而言，全卷积网络的理论感受野是整张图片，但实际上的有效感受野往往是一个有限的区域。在这个有限区域之内的物体能够被很好的理解出来，但位于这个有限区域之外的物体则会出现较大的误差。例如：一辆小轿车可以被很好的分割理解出来，但一辆大货车可能因为体积原因，被理解为不同的物体组合。另一方面，传统方法对于物体边界存在着很大的误判，例如靠着车的人会有一部分被理解为车身，可见，现有的方法会导致系统整体的性能下降。

发明内容

考虑到上述问题而提出了本发明。本发明提供了一种图像场景理解的方法，能够提升系统的整体性能。

根据本发明的第一方面，提供了一种图像场景理解的方法，包括：

获取场景的原始图像；

对所述原始图像进行卷积操作，得到卷积输出；以及

通过全局卷积网络对所述卷积输出进行处理，得到处理结果；

对所述处理结果进行边界精炼，得到图像场景理解的结果。

示例性地，所述对所述原始图像进行卷积操作，得到卷积输出，包括：

通过N个卷积神经网络对所述原始图像进行卷积操作，得到N路卷积输出；

其中，所述N路卷积输出的空间维度两两互不相等，且所述N路卷积输出的空间维度均小于所述原始图像的空间维度，N为大于1的正整数。

示例性地，所述通过全局卷积网络对所述卷积输出进行处理，得到处理结果，包括：

通过N个所述全局卷积网络对所述N路卷积输出分别进行处理，得到与所述N路卷积输出一一对应的N个处理结果。