[发明专利]一种基于自然语言和机器视觉实现机器人自主导航的方法有效
申请号: | 202110597437.8 | 申请日: | 2021-05-31 |
公开(公告)号: | CN113420606B | 公开(公告)日: | 2022-06-14 |
发明(设计)人: | 董敏;聂宏蓄;毕盛 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06V20/56 | 分类号: | G06V20/56;G06V10/26;G06K9/62;G06N3/04;G06V10/764;G06V10/80 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 冯炳辉 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 自然语言 机器 视觉 实现 机器人 自主 导航 方法 | ||
1.一种基于自然语言和机器视觉实现机器人自主导航的方法,其特征在于,包括以下步骤:
1)机器人从初始位置开始,在每一轮对话即每一时刻都获取语言信息和视觉信息;其中,所述语言信息包括指示机器人目标位置的指令以及描述机器人所处环境的对话记录,所述对话记录包括当前位置即当前时刻产生的对话以及之前所有对话的集合,所述视觉信息包括机器人当前位置的全景图像信息;
2)通过注意力机制对语言信息进行特征提取,获得语义特征;通过Resnet152对视觉信息进行特征提取,获得低阶视觉特征以及图像分类特征;通过faster-RCNN和U-net分别对视觉信息进行特征提取,获得目标检测特征以及语义分割特征;
3)通过注意力机制将当前时刻和前一时刻的低阶视觉特征、图像分类特征、目标检测特征、语义分割特征和语义特征进行融合,得到融合特征,包括以下步骤:
3.1)将低阶视觉特征、图像分类特征、目标检测特征、语义分割特征与t-1轮对话即t-1时刻对应的融合特征进行融合,融合的过程描述为:
其中,vt,i、ct,i、ot,i、st,i分别表示t轮对话的第i个子图的低阶视觉特征向量、图像分类特征向量、目标检测特征向量、语义分割特征向量,它们分别是低阶视觉特征矩阵Vt、图像分类特征矩阵Ct、目标检测特征矩阵Ot、语义分割特征矩阵St的向量;表示t-1时刻中获得的融合特征,fv和fvlm表示非线性映射函数,l表示的向量维度;融合后的低阶视觉特征向量、融合后的图像分类特征向量、融合后的目标检测特征向量、融合后的语义分割特征向量分别为
3.2)将融合的低阶视觉特征、图像分类特征、目标检测特征、语义分割特征与语义特征通过注意力机制进行进一步融合,其过程描述为:
其中,分别表示t轮对话时经过融合的低阶视觉特征矩阵、图像分类特征矩阵、目标检测特征矩阵、语义分割特征矩阵;表示t轮对话时的语义特征,经过和参数相乘,映射为h表示t轮对话时的语义特征的维度;softmax表示softmax函数;分别表示经过注意力机制融合后的低阶视觉特征、图像分类特征、目标检测特征、语义分割特征;
3.3)将融合的特征经过LSTM网络做进一步处理,并最终合并成最终编码特征,过程如下:
其中,分别表示经过LSTM网络处理的低阶视觉特征,图像分类特征、目标检测特征、语义分割特征;concat表示向量的合并;表示t轮对话对应的融合特征,即最终编码特征;
4)将融合特征输入softmax分类器中进行当前时刻的移动方向预测,其中在每一时刻,机器人都通过融合特征预测移动方向,最后当预测结果为停止时,即到达目标位置。
2.根据权利要求1所述的一种基于自然语言和机器视觉实现机器人自主导航的方法,其特征在于:在步骤1)中,所述机器人所处环境的对话记录是指两个人类用户在机器人所处环境中进行导航时产生的交流记录,其中,一个人类用户知道了整个室内环境的拓扑信息,通过与另一个人类用户的问答交流指示其行走;每一个对话记录用Ht=D1,D2,...,Di,...,Dt-1表示,Ht表示第t轮对话时的对话记录,Di表示第i轮对话;机器人所处环境的视觉信息对应的全景图像被表示为C,该全景图像被拆分为12个子图,分别表示12个方向,并表示为C=c1,c2,...,ci,...,c12,其中,ci表示第i个子图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110597437.8/1.html,转载请声明来源钻瓜专利网。