[发明专利]一种结合场景文本语义信息的SLAM回环检测方法有效
申请号: | 202010608535.2 | 申请日: | 2020-06-29 |
公开(公告)号: | CN111767854B | 公开(公告)日: | 2022-07-01 |
发明(设计)人: | 杨国青;李夷奇;李红;吕攀;吴朝晖 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06V20/10 | 分类号: | G06V20/10;G06V20/40;G06V10/22;G06V30/148;G06K9/62;G06V10/80;G06V10/764 |
代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 王琛 |
地址: | 310013 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 结合 场景 文本 语义 信息 slam 回环 检测 方法 | ||
本发明公开了一种结合场景文本语义信息的SLAM回环检测方法,该方法利用深度神经网络来提取传感器输入的图像中的特征,并检测识别图像中出现的文本,最后将特征点相似性和文本语义相似性进行加权融合。针对SLAM的实时性要求与嵌入式平台计算资源的限制,本发明在EAST模型的基础上提出轻量级的文本检测模型EAST‑light,在特征提取模块使用ShuffleNet V2模型取代VGG16模型,大大提高了模型运行速度,在速度和精度上实现了更好的平衡。
技术领域
本发明属于同步定位与地图构建技术领域,具体涉及一种结合场景文本语义信息的SLAM回环检测方法。
背景技术
智能移动机器人因其广阔的应用前景而受到广泛关注,随着人工智能技术的发展,机器学习等领域的技术创新也被融入到机器人技术中,提高了机器人的移动性和智能性。为了在工业和生活中发挥更大的作用,智能移动机器人需要具备自主移动的能力,即通过感知环境信息进行定位与导航,这就是同步定位与地图构建(SimultaneousLocalization and Mapping,SLAM)技术需要解决的问题。基于SLAM技术的机器人可以在移动过程中根据位姿估计和传感器数据进行自身定位,同时对周围环境构造增量式地图,并进一步实现路径规划、导航等功能。
回环检测是SLAM的一个重要环节,即通过让机器人识别出曾经达到过的场景,解决位姿估计随时间漂移的问题;在视觉SLAM中,回环检测在于发现两帧图像之间的相似性。传统回环检测中一般通过词袋模型(Bag-of-Words,BoW)来计算相似性:在提取出图像中人工设计的视觉特征后,BoW模型将特征描述子进行聚类,得到单词,构建字典,然后找到每帧图像所包含的单词,形成描述向量,通过计算向量间的相似性,判断是否出现回环。BoW模型的缺点在于仅关注图像中单词是否出现,忽略了单词在空间中的相对位置,而且完全依赖于人工设计的视觉特征,在光照变化或者发生抖动时,容易产生偏差。
如今深度学习的蓬勃发展推动了计算机视觉领域的极大进步,神经网络提取的特征比人工设计的特征更为鲁棒,能更好地代表原始数据。文本检测识别技术的发展也有助于挖掘文本这一在SLAM场景中经常出现的元素,利用其语义信息,这些都为回环检测提供了新思路。高翔等人在文献《Loop Closure Detection for Visual SLAM Systems UsingDeep Neural Networks》中提出了用一种深度神经网络结构,即堆栈自编码器,来学习如何从图像中提取特征,并将学习到的特征用于检测回环。申请号为201910999570.9的中国专利提出了一种基于实例分割的视觉SLAM方法,该方法使用Mask RCNN进行实例分割,并利用图像分类的语义信息构建语义地图,实现回环检测。Boying Li等人在文献《TextSLAM:Visual SLAM with Planar Text Features》中提出了一种在SLAM中利用场景中文本信息的方法,但只把文本作为平面特征来对待,没有很好的挖掘文本本身包含的语义信息。
在视觉SLAM的一些应用场景中如超市、停车场、卖场等,文本图片经常出现,且包含丰富的纹理特征和语义信息,而之前的方法未能充分利用文本的这些纹理和语义特征,若能够结合这些文本特征到SLAM方法中,则可以期望能显著提升SLAM方法在这类场景下的性能。
发明内容
鉴于上述,本发明提出了一种结合场景文本语义信息的SLAM回环检测方法,用于解决基于词袋模型的回环检测方法问题,利用神经网络自动提取图像特征,并与场景中文本路标的语义信息及其在空间中出现的相对位置信息进行融合。
一种结合场景文本语义信息的SLAM回环检测方法,包括如下步骤:
(1)搭建并训练基于轻量级神经网络的文本检测模型和文本识别模型;
(2)使用单目摄像头采集环境图像,利用文本检测模型对图像中的文本进行检测,输出文本框坐标,并保存文本检测模型特征提取部分第二阶段的特征图输出;
(3)利用文本识别模型对检测到的文本区域进行识别;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010608535.2/2.html,转载请声明来源钻瓜专利网。