[发明专利]一种基于雷达与视觉多模态融合的具身语言导航方法有效
申请号: | 202110205655.2 | 申请日: | 2021-02-24 |
公开(公告)号: | CN113156419B | 公开(公告)日: | 2022-10-11 |
发明(设计)人: | 刘华平;周方波;袁小虎;赵怀林 | 申请(专利权)人: | 清华大学 |
主分类号: | G01S13/86 | 分类号: | G01S13/86;G01S13/88;G01S13/93;G01C11/00;G01C21/00;G06V20/10;G06V10/44;G06V10/764;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 廖元秋 |
地址: | 100084*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 雷达 视觉 多模态 融合 语言 导航 方法 | ||
1.一种基于雷达与视觉多模态融合的具身语言导航方法,其特征在于,该方法首先在带有双目相机的机器人的上安装激光雷达,并构建一个多模态融合神经网络模型;利用该机器人对该多模态融合神经网络模型进行训练,得到训练完毕的多模态融合神经网络模型;选取任一真实场景,对机器人下达自然语言导航指令并利用该神经网络模型转化为对应的语义向量;利用机器人在每个时刻分别获取的RGB图、深度图以及雷达信息,利用神经网络模型分别转化为对应的特征;对语义向量、RGB图特征和深度图特征进行特征融合,通过解码得到当前时刻的动作特征;利用雷达特征对该动作特征进行修正后,神经网络模型最终输出机器人在当前时刻的执行动作,直至机器人完成导航任务;该方法包括以下步骤:
1)在带有双目相机的机器人的上安装激光雷达,激光雷达安装在机器人的前方,安装完毕后,将该机器人作为执行导航任务的机器人;
2)构建多模态融合神经网络模型;该神经网络模型包括五个子网络,分别是:语言编码子网络,RGB图编码子网络,深度图编码子网络,雷达信息编码子网络以及包含两个全连接层和门控逻辑单元GRU的解码子网络;利用步骤1)的执行导航任务的机器人在训练场景中对该多模态融合神经网络模型进行训练,训练完毕后,得到训练完毕的多模态融合神经网络模型;
3)选取任一真实场景,将执行导航任务的机器人放置在该场景中任意的初始位置并作为当前位置,记当前时刻t=1,给机器人下达自然语言导航指令,将该导航指令输入语言编码子网络,语言编码子网络对该导航指令的语言序列进行编码,得到语义向量S;该自然语言导航指令的内容包含导航任务的目的地;
4)机器人在当前位置利用双目相机获取到当前时刻t对应的RGB图和深度图,利用RGB图编码子网络对RGB图进行特征提取得到当前时刻的RGB图视觉特征Vt,利用深度图编码子网络对深度图进行特征提取得到当前时刻的深度图视觉特征Dt;机器人利用激光雷达从右向左进行扫描,对机器人到前方物体的距离进行采样,将采样得到的雷达数据输入雷达信息编码子网络,得到当前时刻的雷达特征Lt;
5)将语义向量S、视觉特征Vt和Dt进行特征融合组成当前初始状态特征,对当前初始状态特征使用随机失活机制,得到最终的当前状态特征;将该当前状态特征与前一时刻的执行动作at-1进行拼接,然后输入解码子网络的第一全连接层,该第一全连接层输出对应的状态特征;
将状态特征与上一时刻的隐状态Ht-1一起输入到解码子网络里的门控逻辑单元GRU中,GRU输出当前时刻的动作特征At与隐状态Ht;
其中,H0和a0均为特征值全为1的向量;
6)利用雷达特征Lt对动作特征At进行修正,将修正后的特征输入解码子网络的第二全连接层,该第二全连接层输出机器人执行各执行动作的概率分布,然后选取概率最大值对应的执行动作作为机器人在当前时刻t的执行动作at;
7)机器人执行执行动作at,当下一个时刻到来时,令t=t+1,然后重新返回步骤4);直到机器人在当前时刻t的执行动作at为停止时,机器人完成导航指令到达目的地相应的位置,导航结束。
2.如权利要求1所述的方法,其特征在于,所述步骤3)中语言编码子网络对该导航指令的语言序列进行编码,得到语义向量S,方法为:
首先将指令中的每个单词进行词嵌入操作,转换为对应的词向量,令xi表示第i个词向量,从i=1开始,将xi作为当前词向量与前一词向量的隐状态hi-1依次输入到语言编码子网络中,语言编码子网络输出当前词向量xi对应的隐状态hi;其中i=1时,hi-1为特征值全为1的向量;
记该自然语言指令有m个单词,则将语言编码子网络输出的最后一个词向量对应隐状态hm作为整条指令的语义向量S。
3.如权利要求1所述的方法,其特征在于,所述步骤6)中利用雷达特征Lt对动作特征At进行修正的方法为将两个特征直接相加。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110205655.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:报装接入点的优化方法及相关装置
- 下一篇:一种污染水体治理装置和治理方法