[发明专利]用于双目视觉匹配的神经网络搜索方法及设备有效
申请号: | 202011076376.2 | 申请日: | 2020-10-10 |
公开(公告)号: | CN112149691B | 公开(公告)日: | 2021-10-15 |
发明(设计)人: | 陈雪莲;刘从新;戈宗元;赵昕;和超;张大磊 | 申请(专利权)人: | 北京鹰瞳科技发展股份有限公司;上海鹰瞳医疗科技有限公司 |
主分类号: | G06K9/46 | 分类号: | G06K9/46;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京泛华伟业知识产权代理有限公司 11280 | 代理人: | 王勇 |
地址: | 100083 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 双目 视觉 匹配 神经网络 搜索 方法 设备 | ||
本发明提供一种用于双目视觉匹配的神经网络搜索方法及设备,所述方法包括:获取训练数据,所述训练数据包括双目图像及相应的视差数据;利用所述训练数据在单元级搜索空间和网络级搜索空间中搜索双目视觉匹配模型中的特征提取网络和三维匹配网络的结构;通过搜索过程中得到的视差数据与所述训练数据中的视差数据的差异,优化所述第一权重参数集、所述第二权重参数集以及网络权重直至搜索过程收敛;根据第一权重参数集的值保留至少部分所述操作,以及根据第二权重参数集的值保留至少一条路径,并基于保留的操作和路径得到优化的特征提取网络和三维匹配网络。
技术领域
本发明涉及神经网络搜索技术领域,具体涉及一种用于双目视觉匹配的神经网络搜索方法及设备。
背景技术
人类具有通过双眼观测、重建和理解三维世界的能力,对于场景的准确感知和重建对于人类的决策至关重要。双目视觉匹配(Stereo matching)致力于赋予计算机类似人类双眼的能力,其研究目标是由双目相机获得的二维彩色图像计算出视差图(disparitymap)。在获得了视差信息后,根据投影模型很容易地可以得到原始图像的深度信息和三维信息,因此该技术在三维场景重建、机器人、自动驾驶领域都有广泛的应用。双目视觉匹配不但是计算机视觉领域的一个难点问题,而且近二十年来一直是计算机视觉研究的重要问题之一。
双目视觉匹配通过遍历参考图像中的每一个像素,根据视差范围中的每一个视差值找到对应目标图像的像素,而后进行代价聚合计算。随着大规模数据集的出现、计算力的快速发展,卷积神经网络已经在双目视觉匹配中有所成效。目前大多数基于深度学习的双目视觉匹配方法大致分为两类,一是直接回归视差值,二是基于匹配代价量(cost volume)的方法。直接回归视差的方法是对输入图像中的每个像素直接回归,并不考虑双目视觉匹配中的几何约束。通常采用包含二维卷积的大型U形编码器和解码器网络来实现的。此类方法需要依靠大量数据驱动,且泛化能力较差。相反,基于匹配三维代价量的方法利用半全局匹配的概念,通过平移每个视差的特征,级联地构建四维特征量。
为减少人类在设计神经网络方面的工作,神经网络搜索(Neural ArchitectureSearch,NAS)被使用在一些基础视觉任务中,但直接使用神经网络搜索出一种用于双目视觉三维匹配的网络结构并非易事。通常,NAS需要大量的搜索空间以包含所有可能的架构,以选择合适的网络结构组件,如特定层中卷积的滤波器大小,这需要庞大的计算量。早期的NAS算法需要数千个GPU小时才能在CIFAR数据集上找到合适的架构。
除此之外,由于在基于深度学习的双目视觉匹配方法中,三维匹配代价量需要重复的使用大量浮点运算,且必须使用级联层来实例化这些计算以保证效果,从而导致大量算力的消耗。例如,仅仅每个批次中的三维匹配子网络就需要6到8GB的GPU内存来进行训练。由于现有的神经网络搜索方法对计算资源需求的爆炸性增长,端到端地搜索双目视觉匹配网络的结构被认为是不可能的任务。
发明内容
有鉴于此,本发明提供一种用于双目视觉匹配的神经网络搜索方法,包括:
获取训练数据,所述训练数据包括双目图像及相应的视差数据;
利用所述训练数据在单元级搜索空间和网络级搜索空间中搜索双目视觉匹配模型中的特征提取网络和三维匹配网络的结构,其中所述单元级搜索空间包括基本搜索单元,所述基本搜索单元是具有多个节点的完全连接的有向无环图,其中各个节点之间的边表示可选的操作,且各边对应于第一权重参数集,多个所述基本搜索单元层级排列构成所述网络级搜索空间,其中每个所述基本搜索单元与前一层中的上一级和下一级之间有路径连接,各级中的所述基本搜索单元的分辨率不同,各个路径对应于第二权重参数集,所述网络级搜索空间的超参数包括所述分辨率和层数;
通过搜索过程中得到的视差数据与所述训练数据中的视差数据的差异,优化所述第一权重参数集、所述第二权重参数集以及网络权重直至搜索过程收敛;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京鹰瞳科技发展股份有限公司;上海鹰瞳医疗科技有限公司,未经北京鹰瞳科技发展股份有限公司;上海鹰瞳医疗科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011076376.2/2.html,转载请声明来源钻瓜专利网。