[发明专利]一种机器人视觉语义导航方法、装置及系统有效
申请号: | 202010472301.X | 申请日: | 2020-05-29 |
公开(公告)号: | CN111645073B | 公开(公告)日: | 2022-04-19 |
发明(设计)人: | 宋华珠;金宇 | 申请(专利权)人: | 武汉理工大学 |
主分类号: | B25J9/16 | 分类号: | B25J9/16 |
代理公司: | 武汉智嘉联合知识产权代理事务所(普通合伙) 42231 | 代理人: | 丁倩 |
地址: | 430070 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 机器人 视觉 语义 导航 方法 装置 系统 | ||
1.一种机器人视觉语义导航方法,其特征在于,包括以下步骤:
收集机器人拍摄的场景图像,同时收集机器人接收的语音指令,建立场景图像集以及语音指令集;
标注所述场景图像集中每一场景图像的图像特征,标注所述语音指令集中每一语音指令的语音特征;
结合同一时间的图像特征和语音特征构建语义图谱,得到语义图谱集,标注所述语义图谱集中每一语义图谱的语义特征;
融合同一时间的图像特征、语音特征以及语义特征构建状态向量,得到状态向量集;
标注所述状态向量集中每一状态向量对应的动作序列,以所述状态向量集作为训练样本对对深度强化学习模型进行训练,得到导航模型;
根据所述导航模型对机器人进行导航控制;
根据所述导航模型对机器人进行导航控制,具体为:
获取机器人所采集的实时场景图像,获取用户输入的实时语音指令;
从所述实时场景图像中提取实时图像特征,从所述实时语音指令中提取实时语音特征;
根据所述实时图像特征以及所述实时语音特征构建实时语义图谱,并从所述实时语义图谱中提取实时语义特征;
将所述实时图像特征、所述实时语音特征以及所述实时语义特征融合得到实时状态向量;
将所述实时状态向量输入所述导航模型,得到实时动作序列;
根据所述实时动作序列对机器人进行导航控制;
其中,根据所述实时图像特征以及所述实时语音特征构建实时语义图谱,具体为:
每一对象类别对应所述实时语义图谱中的一个节点,以所述实时图像特征以及所述实时语音特征作为节点特征,根据各对象类别之间的关联建立各节点之间的连接关系,得到语义图谱G=(V,E),其中,G表示实时语义图谱,V表示节点集合,E表示连接关系集合,V=[v1,v2,...,vx]∈Rx*D,x为节点个数,R表示实数集,D为节点特征的维度;
从所述实时语义图谱中提取实时语义特征,具体为:
将所述语义图谱集中语义图谱转换为邻接矩阵,并对所述邻接矩阵进行正则化处理得到正则化矩阵;
以所述正则化矩阵作为输入,以标注的语义特征作为输出,对图卷积神经网络进行训练,得到语义特征提取模型;
采用所述语义特征提取模型从所述实时语义图谱中提取实时语义特征。
2.根据权利要求1所述的机器人视觉语义导航方法,其特征在于,从所述实时场景图像中提取实时图像特征,具体为:
以所述场景图像集中场景图像作为输入,以所述场景图像上标注的图像特征作为输出,对视觉神经网络进行训练,得到图像特征提取模型;
通过所述图像特征提取模型从所述实时场景图像中提取实时图像特征。
3.根据权利要求2所述的机器人视觉语义导航方法,其特征在于,以所述场景图像集中场景图像作为输入,以所述场景图像上标注的图像特征作为输出,对视觉神经网络进行训练,得到图像特征提取模型,具体为:
获取采用ImageNet数据集训练视觉神经网络得到的预训练模型;
以连续多帧场景图像作为输入,以多帧场景图像中最后一帧场景图像对应的图像特征作为输出,对所述预训练模型进行训练,得到所述图像特征提取模型。
4.根据权利要求1所述的机器人视觉语义导航方法,其特征在于,从所述实时语音指令中提取实时语音特征,具体为:
将所述语音指令转换为描述目标对象类别的自然语言信息,计算所述自然语言信息中每个单词的词向量;
将所述词向量映射为与所述实时图像特征维度相同的实时语音特征。
5.一种机器人视觉语义导航装置,其特征在于,包括处理器以及存储器,所述存储器上存储有计算机程序,所述计算机程序被所述处理器执行时,实现如权利要求1-4任一所述的机器人视觉语义导航方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉理工大学,未经武汉理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010472301.X/1.html,转载请声明来源钻瓜专利网。