[发明专利]一种强化学习机器人控制方法在审
申请号: | 202110646067.2 | 申请日: | 2021-06-10 |
公开(公告)号: | CN113386133A | 公开(公告)日: | 2021-09-14 |
发明(设计)人: | 刘俊杰;张琦;王祖盛 | 申请(专利权)人: | 贵州恰到科技有限公司 |
主分类号: | B25J9/16 | 分类号: | B25J9/16;B25J11/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 550018 贵州省贵阳*** | 国省代码: | 贵州;52 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 强化 学习 机器人 控制 方法 | ||
1.一种强化学习机器人控制方法,其特征在于:包括以下步骤:构建初始模型:根据机器人上数据输入接口和控制输出接口,以强化学习算法建立初始控制模型;训练初等模型:用手动控制的方式,在任一真实场景中控制机器人获取真实数据,利用真实数据对初始控制模型进行训练得到初等控制模型;定向训练:在目标场景的仿真环境中,对初等控制模型进行训练,得到定向控制模型;投入使用:用定向控制模型控制机器人,在目标场景中控制并实时更新定向控制模型。
2.如权利要求1所述的强化学习机器人控制方法,其特征在于:所述数据输入接口接入传感器和/或外部系统。
3.如权利要求1所述的强化学习机器人控制方法,其特征在于:所述投入使用步骤中,如需更换目标场景,则返回至定向训练步骤,并将投入使用的定向控制模型作为初等控制模型进行训练。
4.如权利要求1所述的强化学习机器人控制方法,其特征在于:所述训练初等模型步骤中,采用监督学习的方式对初始控制模型进行训练。
5.如权利要求1所述的强化学习机器人控制方法,其特征在于:所述初始控制模型、初等控制模型、定向控制模型的模型结构完全一致。
6.如权利要求1所述的强化学习机器人控制方法,其特征在于:所述初始控制模型为神经网络架构。
7.如权利要求1所述的强化学习机器人控制方法,其特征在于:所述仿真环境采用Gazebo或VREP平台。
8.如权利要求1所述的强化学习机器人控制方法,其特征在于:所述真实数据以控制周期分组,利用至少500组真实数据对初始控制模型进行训练。
9.如权利要求1所述的强化学习机器人控制方法,其特征在于:所述投入使用步骤中,如需更换硬件,则返回至构建初始模型步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵州恰到科技有限公司,未经贵州恰到科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110646067.2/1.html,转载请声明来源钻瓜专利网。