[发明专利]一种基于雷达与视觉多模态融合的具身语言导航方法有效

申请号：	202110205655.2	申请日：	2021-02-24
公开（公告）号：	CN113156419B	公开（公告）日：	2022-10-11
发明（设计）人：	刘华平;周方波;袁小虎;赵怀林	申请（专利权）人：	清华大学
主分类号：	G01S13/86	分类号：	G01S13/86;G01S13/88;G01S13/93;G01C11/00;G01C21/00;G06V20/10;G06V10/44;G06V10/764;G06V10/82;G06N3/04;G06N3/08
代理公司：	北京清亦华知识产权代理事务所(普通合伙) 11201	代理人：	廖元秋
地址：	100084***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于雷达视觉多模态融合语言导航方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于雷达与视觉多模态融合的具身语言导航方法，其特征在于，该方法首先在带有双目相机的机器人的上安装激光雷达，并构建一个多模态融合神经网络模型；利用该机器人对该多模态融合神经网络模型进行训练，得到训练完毕的多模态融合神经网络模型；选取任一真实场景，对机器人下达自然语言导航指令并利用该神经网络模型转化为对应的语义向量；利用机器人在每个时刻分别获取的RGB图、深度图以及雷达信息，利用神经网络模型分别转化为对应的特征；对语义向量、RGB图特征和深度图特征进行特征融合，通过解码得到当前时刻的动作特征；利用雷达特征对该动作特征进行修正后，神经网络模型最终输出机器人在当前时刻的执行动作，直至机器人完成导航任务；该方法包括以下步骤：

1)在带有双目相机的机器人的上安装激光雷达，激光雷达安装在机器人的前方，安装完毕后，将该机器人作为执行导航任务的机器人；

2)构建多模态融合神经网络模型；该神经网络模型包括五个子网络，分别是：语言编码子网络，RGB图编码子网络，深度图编码子网络，雷达信息编码子网络以及包含两个全连接层和门控逻辑单元GRU的解码子网络；利用步骤1)的执行导航任务的机器人在训练场景中对该多模态融合神经网络模型进行训练，训练完毕后，得到训练完毕的多模态融合神经网络模型；

3)选取任一真实场景，将执行导航任务的机器人放置在该场景中任意的初始位置并作为当前位置，记当前时刻t＝1，给机器人下达自然语言导航指令，将该导航指令输入语言编码子网络，语言编码子网络对该导航指令的语言序列进行编码，得到语义向量S；该自然语言导航指令的内容包含导航任务的目的地；

4)机器人在当前位置利用双目相机获取到当前时刻t对应的RGB图和深度图，利用RGB图编码子网络对RGB图进行特征提取得到当前时刻的RGB图视觉特征V_t，利用深度图编码子网络对深度图进行特征提取得到当前时刻的深度图视觉特征D_t；机器人利用激光雷达从右向左进行扫描，对机器人到前方物体的距离进行采样，将采样得到的雷达数据输入雷达信息编码子网络，得到当前时刻的雷达特征L_t；

5)将语义向量S、视觉特征V_t和D_t进行特征融合组成当前初始状态特征，对当前初始状态特征使用随机失活机制，得到最终的当前状态特征；将该当前状态特征与前一时刻的执行动作a_t-1进行拼接，然后输入解码子网络的第一全连接层，该第一全连接层输出对应的状态特征；

将状态特征与上一时刻的隐状态H_t-1一起输入到解码子网络里的门控逻辑单元GRU中，GRU输出当前时刻的动作特征A_t与隐状态H_t；

其中，H₀和a₀均为特征值全为1的向量；

6)利用雷达特征L_t对动作特征A_t进行修正，将修正后的特征输入解码子网络的第二全连接层，该第二全连接层输出机器人执行各执行动作的概率分布，然后选取概率最大值对应的执行动作作为机器人在当前时刻t的执行动作a_t；

7)机器人执行执行动作a_t，当下一个时刻到来时，令t＝t+1，然后重新返回步骤4)；直到机器人在当前时刻t的执行动作a_t为停止时，机器人完成导航指令到达目的地相应的位置，导航结束。

2.如权利要求1所述的方法，其特征在于，所述步骤3)中语言编码子网络对该导航指令的语言序列进行编码，得到语义向量S，方法为：

首先将指令中的每个单词进行词嵌入操作，转换为对应的词向量，令x_i表示第i个词向量，从i＝1开始，将x_i作为当前词向量与前一词向量的隐状态h_i-1依次输入到语言编码子网络中，语言编码子网络输出当前词向量x_i对应的隐状态h_i；其中i＝1时，h_i-1为特征值全为1的向量；

记该自然语言指令有m个单词，则将语言编码子网络输出的最后一个词向量对应隐状态h_m作为整条指令的语义向量S。

3.如权利要求1所述的方法，其特征在于，所述步骤6)中利用雷达特征L_t对动作特征A_t进行修正的方法为将两个特征直接相加。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于清华大学，未经清华大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110205655.2/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G01 测量；测试
G01S 无线电定向；无线电导航；采用无线电波测距或测速；采用无线电波的反射或再辐射的定位或存在检测；采用其他波的类似装置
G01S13-00 使用无线电波的反射或再辐射的系统，例如雷达系统；利用波的性质或波长是无关的或未指明的波的反射或再辐射的类似系统
G01S13-02 .利用无线电波反射的系统，例如，初级雷达系统；类似的系统
G01S13-66 .雷达跟踪系统；类似系统
G01S13-74 .应用无线电波再辐射的系统，例如二次雷达系统；类似系统
G01S13-86 .雷达系统与非雷达系统
G01S13-87 .雷达系统的组合，例如一次雷达与二次雷达

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于雷达与视觉多模态融合的具身语言导航方法有效

专利文献下载