[发明专利]一种图像定位模型的训练方法、装置及图像定位方法有效
申请号: | 201811057757.9 | 申请日: | 2018-09-11 |
公开(公告)号: | CN109389156B | 公开(公告)日: | 2022-05-03 |
发明(设计)人: | 李庆;朱家松;李清泉;邱国平 | 申请(专利权)人: | 深圳大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06V10/774;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 深圳市君胜知识产权代理事务所(普通合伙) 44268 | 代理人: | 王永文;刘文求 |
地址: | 518060 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 图像 定位 模型 训练 方法 装置 | ||
本发明公开了一种图像定位模型的训练方法、装置及图像定位方法,通过根据双像图像间的位置和姿态差异设计出图像相对位置一致性损失函数,图像相对位置预测损失函数和自适应的图像特征差异损失函数。基于双像的损失函数能够保持图像间相对位置和姿态并和全局位置和姿态损失函数一起提升图像定位的精度。本发明所提供方法能够实现基于图像的实时定位,具有精度高、可靠性好等优点。
技术领域
本发明涉及图像处理及计算机视觉技术领域,尤其涉及的是一种基于双流卷积神经网络的图像定位模型的训练方法、装置及图像定位方法。
背景技术
基于图像的定位的方法在机器人,在自动导航,AR和VR游戏等领域有着重要的应用。传统的方法主要分为两种,基于图像检索技术的图像定位方法和基于3D模型的图像定位方法。
基于图像检索方法通过比较现拍图像和带有地理位置标签的已有数据库进行比较,把与现拍图像的最相似的数据库图像的位置作为现拍图像的位置,也就是人所在的位置。该类方法主要分为三个步骤,1)图像特征提取,2)特征比较,3)位置决策。图像特征提取指的是从原始图像中提取高层次的特征来表征图像,常用的有颜色直方图,梯度直方图,以及全局GIST特征,或者局部位置特征如SIFT,SURF,ORB等,也基于局部位置特征的统计特征如BovW,VLAD以及Fisher向量。特征比较用于寻找与现拍图像最相似的数据库图像,常用的方法是逐一比较的方式,计算特征距离,特征距离最小的那一张图像即为最相似的图像。常用的距离如欧式距离,马氏距离等。位置决策指根据寻找到的最相似图像的位置来决定现拍图像的位置。最简单的策略是将与现拍图像最相似的图像的位置作为现拍图像的位置。也有研究者通过查询一组相似图像,并采用投票的策略来决定现拍图像的位置。基于图像检索的图像定位方法简单,直接。但该方法的定位精度较低,这主要是因为预先采集的图像数据库的图像位置的稀疏性导致的。同时该方法在大场景中难以使用,这主要由于对于大场景,数据库图像数据量大,存储需求高,检索效率低。
基于3D模型的图像定位方法以及投影成像原理,通过建立2D图像的像素和3D模型里位置的对应关系,在给定一定数量的正确匹配对的情形下,根据PNP算法可准确恢复出图像拍摄瞬间的位置和姿态。该问题的关键在于建立3D点和2D像素间两个不同空间下匹配关系。解决办法是2D像素和3D点分别建立图像的特征,常用的有SIFT,SURF以及ORB等特征描述算子。该策略要求3D点需采用SFM算法生成得到的,这主要是由于SFM算法是从图像集中生成3D模型,该模型里的3D点有着图像上特征点描述。该方法解算的图像位置精度高,并且无需存储图像。但该方法要求2D和3D匹配要求的准确度高,这常常面临着挑战。常用点特征描述算子是从图像点周围的区域计算得到,因此丢失了全局信息,导致对纹理重复性的场景,该方法难以工作。该方法对纹理空白区域如室内白墙,由于提取不到足够的特征点也无法实用。除此之外,在大场景中,3D点的数量巨大,导致匹配的效率低下,运算速度慢。同时该方法对模糊图像和运动物体的干扰也很难取得较好的结果。
深度学习技术在图像分类和物体检测的领域取得了惊人的效果。研究者尝试将该技术用于图像定位领域。他们将基于图像定位当做一个从图像到位置和姿态的回归问题,用卷积神经网络来学习该回归模型。该方法需要一个包含地理位置信息的数据库用于训练该网络模型。该方法分为两个阶段,首先是训练阶段。训练阶段需要以图像本身作为输入,把图像的真实位置和姿态信息作为标签,将网络输出与真实标签的差异作为构造损失函数,训练网络直到收敛。测试阶段以现拍图像为输入,直接输出该图像的位置和姿态。该方法能实时给出图像的位置和姿态且效率不随场景增大而降低,同时对图像模糊和图像上移动物体的干扰有着免疫作用。但该方法忽略训练图像的相对位置的约束,并对存在场景相似的场景结果较差。
因此,现有技术有待于进一步的改进。
发明内容
鉴于上述现有技术中的不足之处,本发明的目的在于提供一种图像定位模型的训练方法、装置及图像定位方法,解决当前算法速度慢,精度低及场景相似带来的定位误差大的问题,为行人导航和自动驾驶等应用提供技术支持。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳大学,未经深圳大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811057757.9/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序