[发明专利]一种基于胶囊网络的鲁棒场景识别方法及系统在审
申请号: | 202110016404.X | 申请日: | 2021-01-07 |
公开(公告)号: | CN112733701A | 公开(公告)日: | 2021-04-30 |
发明(设计)人: | 王蓉;查文中;孟繁乐;顾天龙 | 申请(专利权)人: | 中国电子科技集团公司信息科学研究院 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06F16/51;G06N3/04;G06N3/08 |
代理公司: | 北京中知法苑知识产权代理有限公司 11226 | 代理人: | 李明;赵吉阳 |
地址: | 100086 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 胶囊 网络 场景 识别 方法 系统 | ||
本发明提供一种基于胶囊网络的鲁棒场景识别方法及系统,方法包括:将原始图片通过残差网络得到特征图;将得到的特征图输入到胶囊层中编码空间关系,首先将输入转换为向量神经元,并在不同胶囊层间通过动态路由算法最终编码得到整幅图像的低维向量表示,获得网络框架;利用弱监督训练数据集并通过全局难样本挖掘所构建的三元组损失来对网络框架进行训练,以确定网络框架的参数;利用训练好的网络框架进行场景识别。一方面可以较少的表征维数就提升场景识别的准确性和鲁棒性,另一方面可以减小训练阶段对数据标签和数量的依赖,以更少的表征维数和训练数据来更好地应对动态物体、大视角变化、强光照变化、季节变化等极端因素下的场景识别问题。
技术领域
本发明属于计算机视觉技术领域,具体涉及一种基于胶囊网络的鲁棒场景识别方法及系统。
背景技术
场景识别的目的是在参考图像数据库中找到与当前索引图像最相似(拍摄的是同一场景或地点)的一张或几张图像。该研究具有广阔的应用前景,可用于推荐系统或社交网站上的图像检索,也是视觉SLAM中重定位或闭环检测的关键环节,因此得到了大量的关注与研究。然而,场景识别仍是一个开放性的问题,每年相关的文章在各大会议上也是层出不穷,这是因为当前场景识别算法易受到动态物体、光照变化、视角变化、环境变化等因素的影响,难以在真实场景中有效应用,比如,当前方法很难将同一场景在雨雪天气、黑暗光照下所拍摄的图像进行正确关联。因此,面向复杂动态场景进行的鲁棒场景识别技术就显得尤为重要,本发明正是针对该问题提出的一种解决思路与方案。
场景识别的基本思路是构建一种图像表示,该表示能有效对图像中包含的要素进行建模,然后通过对该表示间的距离计算进行图像相似度的度量,实现图像检索。词袋模型(Bag-of-Words,BoW)是视觉SLAM中最常用的一种场景识别方法,它将图像表征为特征点的集合,并通过构建离线词典的方式将图像表征二值化,加快检索和匹配速度。这种方法相对较成熟,速度快,但只利用了图像中的局部特征信息,且整个图像仅表示为局部信息的无序集合,整个建模较粗糙,丢失了大量有用信息,因此对动态物体、大视角变化、光照变化、季节变化等极端因素具有局限性。随着深度学习的发展,基于卷积神经网络(CNN)的场景识别方法能通过CNN强大的特征表示能力来有效应对动态物体、大视角变化、强光照变化、季节变化等极端因素影响,是目前学术研究的方向。但该方法具有两个显著缺点:一是图像最终编码成的向量往往是较高维度的,这会大大增加计算或通信的开销,不利于实时性要求高的场景;二是训练过程需要大量具有标签和差异的数据,实用性、通用性和可扩展性差。此外,虽然基于CNN的场景识别已取得了一些进展,但其中通常只编码了视觉信息作为不变的特征,没有考虑特征间的空间几何关系。而场景布局和几何结构是场景识别的重要线索,由于在不同环境条件下,场景组成元素的空间关系往往变化不大,故在场景识别中考虑特征间的空间关系是有意义和必要的。为了引入特征的空间关系,一些工作在特征提取的基础上增加对特征的空间分布的分析,但过程却复杂繁琐,不利于在实际中的部署运用。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一,提供一种基于胶囊网络的鲁棒场景识别方法及系统。
本发明的一个方面,提供一种基于胶囊网络的鲁棒场景识别方法,所述方法包括以下步骤:
将原始图片通过残差网络得到特征图;
将通过所述残差网络得到的所述特征图输入到胶囊层中编码空间关系,首先将输入转换为向量神经元,并在不同胶囊层间通过动态路由算法最终编码得到整幅图像的低维向量表示,获得网络框架;
利用弱监督训练数据集并通过全局难样本挖掘所构建的三元组损失来对所述网络框架进行训练,以确定所述网络框架的参数;利用所述训练好的网络框架进行场景识别。
在一些可选地实施方式中,所述胶囊层包括初始胶囊层和数字胶囊层,所述将通过所述残差网络得到的所述特征图输入到胶囊层中编码空间关系,最终得到整幅图像的低维向量表示,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司信息科学研究院,未经中国电子科技集团公司信息科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110016404.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种家禽自动宰杀机及方法
- 下一篇:一种具有应急启动功能的汽车充气泵