[发明专利]基于人工智能导盲的多模态融合障碍物检测方法及装置有效
申请号: | 202110913691.4 | 申请日: | 2021-08-10 |
公开(公告)号: | CN113591770B | 公开(公告)日: | 2023-07-18 |
发明(设计)人: | 秦文健;张旺 | 申请(专利权)人: | 中国科学院深圳先进技术研究院 |
主分类号: | G06V20/00 | 分类号: | G06V20/00;G06V10/75;G06V10/774;G06V10/80;G06V10/82;G06N3/0464;G06N3/0499 |
代理公司: | 北京市诚辉律师事务所 11430 | 代理人: | 耿慧敏;朱伟军 |
地址: | 518055 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 人工智能 多模态 融合 障碍物 检测 方法 装置 | ||
本发明公开了一种基于人工智能导盲的多模态融合障碍物检测方法,包括:通过红外相机和彩色相机分别负责获取场景的红外图像、彩色图像;获取的红外、彩色双模态图像分别传给卷积神经网络Q1和卷积神经网络Q2,所述卷积神经网络Q1和卷积神经网络Q2分别将图像转为第一多通道特征图和第二多通道特征图,以备后面展平为向量;将所述第一多通道特征图和第二多通道特征图向量化表示,将第一多通道特征图和第二多通道特征图序列进行特征向量编码,生成多个预测向量;对生成多个预测向量进行分类和位置预测,本发明是在障碍物检测的过程中引入Transformer结构,更有效地实现多模态融合,引入Transformer‑block,充分融合红外和彩色图像的特征,提高低照度情景下的障碍物检测精度。
技术领域
本发明涉及自然图像处理技术领域,具体涉及一种基于人工智能导盲的多模态融合障碍物检测方法及装置。
背景技术
根据中国残联的统计,目前我国至少500万盲人,并且随着人口老龄化加剧,盲人数量也在逐年增加。“为盲人导盲”一直是一个热点研究问题。在人工智能兴起之前,智能导盲一直是研究人员追求的导盲解决方案。随着本世纪人工智能开始爆发,这种追求逐渐成为现实。深度学习、卷积神经网络的出现使得计算机视觉在导盲上应用逐渐颠覆依赖超声波等避障的传统导盲技术,复杂难以处理障碍物检测问题得到了解决。
当前,最新的应用了基于深度目标检测的导盲技术大多数将采集的图像上传服务器,然后用有监督或无监督的方法训练的网络进行处理,在结合其他传感信息进行导盲。这类方法充分利用了深度学习处理复杂图像的优势,在一般的导盲情景下,有很不错的表现。实验表明,通过深度学习,导盲设备能对盲人生活场景中的常见物体,如垃圾桶,椅子,人等较为准确地识别。虽然这类方法表现不错,但是对于黑暗场景来说,检测结果却不尽人意。基于视觉的导盲技术多数是应用明亮光照下的彩色图像训练网络实现的,黑暗场景的明亮图像是很难获得的。一种解决方案是多模态的图像融合,即获取暗场景的红外图像和普通彩色图像,通过分别提取、融合红外图像和彩色图像特征获得较可靠检测结果。在黑暗场景下,彩色图像的特征的有效性是大打折扣的,不易识别物体轮廓,但是红外图像却能比较容易获得物体轮廓信息。神经网络提取两种图像的特征通过一定的方法融合,能大大提高神经网络的目标检测性能。现有多模态图像融合大多都是基于CNN的,CNN在融合多模态特征时,有时不能充分融合,因此引入一种Transformer结构,使不同模态图像特征能充分融合,从而提高检测精度。
目前,导盲设备的障碍物探测方法可分为传统无视觉、传统机器视觉和基于深度学习的机器视觉方法。
(1)传统无视觉大多数只应用了超声、红外传感器,对障碍物的判断仅局限于方位距离,而且精度较低;
(2)传统机器视觉主要利用事先写好的算法,对图像中的目标进行特征识别,这种方法迁移能力不强,不具有智能性;
(3)基于深度学习的机器视觉方法通过数据集训练学习图像的特征,能够识别各种场景的图像,并进行目标检测,检测效果也十分不错,但是在暗场景下,彩色图像能获得物体信息很少,难以有效检测出障碍物。
(4)基于CNN的多模态的障碍物检测方法能提取红外和彩色双模态图像特征进行融合从而较好检测障碍物,但是不能充分融合特征。
发明内容
本发明目的是在障碍物检测的过程中引入Transformer结构,更有效地实现多模态融合,引入Transformer block,充分融合红外和彩色图像的特征,提高低照度情景下的障碍物检测精度。
第一方面,本发明提供了一种基于人工智能导盲的多模态融合障碍物检测方法,包括:
通过红外相机和彩色相机分别负责获取场景的红外图像、彩色图像;
获取的红外、彩色双模态图像分别传给卷积神经网络Q1和卷积神经网络Q2,所述卷积神经网络Q1和卷积神经网络Q2分别将图像转为第一多通道特征图和第二多通道特征图,以备后面展平为向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院深圳先进技术研究院,未经中国科学院深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110913691.4/2.html,转载请声明来源钻瓜专利网。