[发明专利]多机器人协同避障方法、装置和智能机器人在审
申请号: | 202110978402.9 | 申请日: | 2021-08-25 |
公开(公告)号: | CN113433953A | 公开(公告)日: | 2021-09-24 |
发明(设计)人: | 宋佳;罗雨歇;赵凯;徐小蔚;童心迪 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G05D1/02 | 分类号: | G05D1/02 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 梁韬 |
地址: | 100082*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 机器人 协同 方法 装置 智能 | ||
本发明提供一种多机器人协同避障方法、装置和智能机器人,该多机器人协同避障方法包括:在执行完上一动作后,通过预设回报函数获取反馈回报;获取机器人的自身状态数据并发送至同路径任务的至少一个协同机器人,并接收至少一个所述协同机器人的协同状态数据;将所述反馈回报、所述自身状态数据以及所述协同状态数据输入至预设强化学习算法的协同避障模型,获得下一动作。本发明的多机器人协同避障方法,通过获取自身状态数据以及其它智能机器人的协同状态数据,实现多个智能机器人执行相同的路径任务时,可协同路径规划并保持协同关系,使协同避障模型的下一动作避障成功率更高,提高多个智能机器人执行相同的路径任务的效率,提高用户体验度。
技术领域
本发明涉及机器人领域,具体而言,涉及一种多机器人协同避障方法、装置、智能机器人和可读存储介质。
背景技术
智能机器人一般是具有感知和决策能力的个体,能够基于从环境中接收到的信息来执行相应的动作。而现有的智能机器人,一般只能执行单体的路径任务,对于多智能机器人在相同路径任务下的情况,难以做到协同避障,从而使多个智能机器人执行相同的路径任务的效率较低。
发明内容
鉴于上述问题,本发明提供了一种多机器人协同避障方法、装置、智能机器人和可读存储介质,以提高多个智能机器人执行相同的路径任务的效率,提高用户体验度。
为了实现上述目的,本发明采用如下的技术方案:
一种多机器人协同避障方法,包括:
在执行完上一动作后,通过预设回报函数获取反馈回报;
获取机器人的自身状态数据并发送至同路径任务的至少一个协同机器人,并接收至少一个所述协同机器人的协同状态数据;
将所述反馈回报、所述自身状态数据以及所述协同状态数据输入至预设强化学习算法的协同避障模型,获得下一动作。
优选地,所述的多机器人协同避障方法中,所述自身状态数据和所述协同状态数据包括目标点位置数据以及相应机器人的位置数据、速度数据、对应静态障碍物的位置数据、对应动态障碍物的位置数据。
优选地,所述的多机器人协同避障方法中,所述预设强化学习算法为深度确定性策略梯度法,所述协同避障模型包括值函数网络以及策略网络;
所述将所述反馈回报、所述自身状态数据以及所述协同状态数据输入至预设强化学习算法的协同避障模型,获得下一动作包括:
将所述反馈回报、所述自身状态数据以及所述协同状态数据输入至所述值函数网络,获得相应的评估信息;
根据所述评估信息对所述策略网络进行更新运算;
从更新运算后的所述策略网络获得所述下一动作。
优选地,所述的多机器人协同避障方法中,还包括:
在执行所述下一动作后,获取机器人相应的新的自身状态数据,将所述下一动作、所述新的自身状态数据、所述上一动作的所述反馈回报以及所述上一动作的所述自身状态数据关联为状态转移数据,并存储至预设的经验回放池。
优选地,所述的多机器人协同避障方法中,还包括:
从所述经验回放池中筛选出预设数量的所述反馈回报大于或等于预设回报值的目标状态转移数据;
将预设数量的所述目标状态转移数据作为训练样本,对所述协同避障模型进行训练。
优选地,所述的多机器人协同避障方法中,所述动态障碍物为基于比例引导法的动态追踪障碍物。
优选地,所述的多机器人协同避障方法中,所述预设回报函数的算式包括:
式中,为所述反馈回报,为距离回报函数,为协同回报,为绕开障碍物回报,为路径任务成功回报,为路径任务失败回报。
本发明还提供一种多机器人协同避障装置,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110978402.9/2.html,转载请声明来源钻瓜专利网。