[发明专利]用于RoboMaster人工智能挑战赛的机器人强化学习训练环境系统在审
申请号: | 202010491376.2 | 申请日: | 2020-06-02 |
公开(公告)号: | CN111882027A | 公开(公告)日: | 2020-11-03 |
发明(设计)人: | 方逸然;张雪峰;田宇飞 | 申请(专利权)人: | 东南大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;B25J9/16 |
代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 杜静静 |
地址: | 210096 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 robomaster 人工智能 挑战赛 机器人 强化 学习 训练 环境系统 | ||
本发明涉及用于RoboMaster人工智能挑战赛的机器人强化学习训练环境系统,该环境基于ROS、Python和C++,使用了Gazebo模拟器作为物理引擎,构建了基于OpenAI Gym强化学习的统一接口。该环境可以真实地模拟RoboMaster人工智能挑战赛中的机器人运动和比赛过程中的裁判系统数据,使用者可以根据情况自由地设计状态反馈和奖励。本发明使得各种基于强化学习的算法能够方便地基于此环境进行训练和效果评估,大大降低了研究RoboMaster人工智能挑战赛决策系统的难度。
技术领域
本发明涉及一种强化学习训练工具,具体涉及一种用于RoboMaster人工智能挑战赛的机器人强化学习训练环境,属于机器人的强化学习技术领域。
背景技术
作为一个新兴的机器人学术平台,DJI的RoboMaster赛事组委会自2017年起发起了专门针对移动机器人领域的RoboMaster人工智能挑战赛,RoboMaster人工智能挑战赛让全球爱好者一起研究基于深度神经网络的机器人技术,并有望将成果应用于野外救援、无人驾驶、自动物流等行业,造福人类生活。
RoboMaster人工智能挑战赛的主题为移动机器人的全自动射击对抗。在比赛中,组委会提供统一标准的移动机器人平台“步兵”,该平台搭载麦克纳姆轮和可以发射弹丸的二自由度云台,可实现全向移动和远程打击。参赛队伍需要准备两台步兵机器人,在5.1m*8.1m的比赛场地上进行全自动射击对抗。参赛队需自行研发算法,配合搭载的传感器和运算设备来实现机器人的自主决策、运动和射击。比赛过程中,机器人通过识别并发射弹丸击打对方的装甲模块,以减少对方的血量。比赛结束时,机器人总伤害量高的一方获得比赛胜利。
该竞赛最重要的组成部分就是研究机器人的决策模块。在2016年,谷歌旗下DeepMind公司团队研发的AlphaGo击败围棋世界冠军李世石,引起了学术界对深度学习和强化学习方法的关注,人们开始更多尝试使用深度强化学习方法解决实际问题。但是深度强化学习方法的训练需要通过模拟器产生训练数据,而且对于训练模拟器的要求高,要求尽量贴近真实环境,因此,迫切的需要一种新的方案解决上述技术问题。
发明内容
本发明正是针对现有技术中存在的问题,提供一种用于RoboMaster人工智能挑战赛的机器人强化学习训练方法,该技术方案基于ROS、Python和C++,使用了Gazebo模拟器作为物理引擎,构建了基于OpenAI Gym强化学习的统一接口。该环境可以真实地模拟RoboMaster人工智能挑战赛中的机器人运动和比赛过程中的裁判系统数据,使用者可以根据情况自由地设计状态反馈和奖励。
为了实现上述目的,本发明的技术方案如下:一种用于RoboMaster人工智能挑战赛的机器人强化学习训练环境系统,其特征在于:该系统总共可分为三个部分,分别是物理引擎、模型控制器、比赛模拟器三个模块,该系统使用了Gazebo作为物理引擎,C++程序作为模型控制器,OpenAI Gym接口与强化学习算法和控制器互动。该系统可以作为参与RoboMaster人工智能挑战赛的研究人员进行强化学习研究的工具;OpenAI Gym接口。该模块是本系统的核心,其主要作用是模拟比赛的进程和机器人的状态,赋予机器人模型实际意义;根据赛场上的情况为强化学习算法提供状态和奖励,接受来自强化学习算法的动作指令,并将动作应用于模型控制器来控制模型。模型控制器,该模块的作用是控制物理引擎中模拟的机器人模型。并实现物理引擎与比赛模拟器之间的进行信息交换。物理引擎,该模块的作用是应用机器人模型,为强化学习算法提供真实的运行模拟环境。
相对于现有技术,本发明具有如下优点,该技术方案通过构建较真实的机器人结构模型,以及设计合理的Gym接口来模拟比赛进行,比较好地解决了构建RoboMaster人工智能挑战赛中强化学习决策模拟环境的困难;2)该方案能够提供较为真实的机器人仿真,缓解强化学习算法落地时由于模拟器和实际环境的偏差导致的模型失效;3)该方案能够自定义多样化的动作和奖励设计,来配合调整强化学习算法的参数。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010491376.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种大型机器联轴器对中平台
- 下一篇:一种防刮伤手动剃须刀