[发明专利]一种强化学习机器人控制方法在审
申请号: | 202110646067.2 | 申请日: | 2021-06-10 |
公开(公告)号: | CN113386133A | 公开(公告)日: | 2021-09-14 |
发明(设计)人: | 刘俊杰;张琦;王祖盛 | 申请(专利权)人: | 贵州恰到科技有限公司 |
主分类号: | B25J9/16 | 分类号: | B25J9/16;B25J11/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 550018 贵州省贵阳*** | 国省代码: | 贵州;52 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 强化 学习 机器人 控制 方法 | ||
本发明提供了一种强化学习机器人控制方法,包括以下步骤:构建初始模型:根据机器人上数据输入接口和控制输出接口,以强化学习算法建立初始控制模型;训练初等模型:用手动控制的方式,在任一真实场景中控制机器人获取真实数据,利用真实数据对初始控制模型进行训练得到初等控制模型;定向训练:在目标场景的仿真环境中,对初等控制模型进行训练,得到定向控制模型;投入使用:用定向控制模型控制机器人,在目标场景中控制并实时更新定向控制模型。本发明基于实际硬件情况和真实数据构建控制模型,能有效提升仿真阶段的控制模型训练效率,并且便于智能机器人的产品化,大幅提升机器人的智能化的通用性。
技术领域
本发明涉及一种强化学习机器人控制方法。
背景技术
如公开号为CN112684794 A的发明专利公开了一种基于元强化学习的足式机器人运动控制方法、装置及介质,其提供了利用强化学习算法构建控制模型,并在仿真环境中进行模型训练,从而对机器人进行控制的方法。
又如公开号为CN112643668 A的发明专利公开了一种适用于密集环境下的机械臂推抓协同,其提供了在仿真环境中利用深度强化学习算法构建控制模型并训练,实现对机器人的控制。
但是包括上述技术方案在内的现有技术,都没有关注机器人在工业场景中实际使用的特殊性:机器人在实际使用中的场景并非固定不变的,而算法模型要适配具体场景,对于深度学习算法构建的控制模型而言,更换场景无异于的将整体推翻重来,因此将控制模型完全依靠仿真环境来进行训练,当使用机器人的目标场景更换时,则需要在仿真环境中重新初始化控制模型并训练,因此训练效率低,极不利于甚至无法使智能机器人产品化,且控制模型不具有通用性。
发明内容
为解决上述技术问题,本发明提供了一种强化学习机器人控制方法,该强化学习机器人控制方法能有效提升仿真阶段的控制模型训练效率,并且便于智能机器人的产品化,大幅提升机器人的智能化的通用性。
本发明通过以下技术方案得以实现。
本发明提供的一种强化学习机器人控制方法,包括以下步骤:
构建初始模型:根据机器人上数据输入接口和控制输出接口,以强化学习算法建立初始控制模型;
训练初等模型:用手动控制的方式,在任一真实场景中控制机器人获取真实数据,利用真实数据对初始控制模型进行训练得到初等控制模型;
定向训练:在目标场景的仿真环境中,对初等控制模型进行训练,得到定向控制模型;
投入使用:用定向控制模型控制机器人,在目标场景中控制并实时更新定向控制模型。
所述数据输入接口接入传感器和/或外部系统。
所述投入使用步骤中,如需更换目标场景,则返回至定向训练步骤,并将投入使用的定向控制模型作为初等控制模型进行训练。
所述训练初等模型步骤中,采用监督学习的方式对初始控制模型进行训练。
所述初始控制模型、初等控制模型、定向控制模型的模型结构完全一致。
所述初始控制模型为神经网络架构。
所述仿真环境采用Gazebo或VREP平台。
所述真实数据以控制周期分组,利用至少500组真实数据对初始控制模型进行训练。
所述投入使用步骤中,如需更换硬件,则返回至构建初始模型步骤。
本发明的有益效果在于:基于实际硬件情况和真实数据构建控制模型,能有效提升仿真阶段的控制模型训练效率,并且便于智能机器人的产品化,大幅提升机器人的智能化的通用性。
附图说明
图1是本发明的数据流转示意图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵州恰到科技有限公司,未经贵州恰到科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110646067.2/2.html,转载请声明来源钻瓜专利网。