[发明专利]跨平台强化学习的机器人训练系统在审
申请号: | 202111207658.6 | 申请日: | 2021-10-18 |
公开(公告)号: | CN113848728A | 公开(公告)日: | 2021-12-28 |
发明(设计)人: | 宋子豪 | 申请(专利权)人: | 湖南太观科技有限公司 |
主分类号: | G05B13/04 | 分类号: | G05B13/04 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 410000 湖南省长沙市开福区芙*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 平台 强化 学习 机器人 训练 系统 | ||
本发明公开了跨平台强化学习的机器人训练系统,涉及机器人训练技术领域,步骤一、智能体通过Actor进行推演和采样,步骤二、Actor把采集好的样本上传到Trainer,Trainer进行训练,步骤三、Trainer把训练好的模型下发给Actor,步骤四、一个Trainer可以连接多个Actor,采用异步式并行模式完成推演和训练步骤。通过Actor和Trainer,可以实现将训练模型进行快速的更新和异步式并行模式完成推演和训练步骤,为两种环境提供一致的接口、事件总线、数据管理、容错机制,支持多智能体训练,进一步提高训练效率,模拟环境可以体现真实环境的复杂性,避免出现模型不收敛,机器人在不同环境、不同时间遇到的情况不一样,导致模型不收敛,有时会出现模型崩溃、毁灭性遗忘。
技术领域
本发明涉及机器人训练技术领域,具体为跨平台强化学习的机器人训练系统。
背景技术
深度强化学习可以让机器人学会新技能,而不用人工编程,深度强化学习通常在模拟环境中的虚拟智能体上训练,然后再由工程师手动迁移到真实环境中的机器人实体上,该迁移过程存在诸多局限和不确定性,本文提出一种跨平台强化学习架构,让智能体的采样和训练流程可以在不同的硬件平台上平滑迁移。
Sim2Real旨在让模拟环境中学习的模型能适用于真实环境,该过程主要存在以下问题:模型不收敛,机器人在不同环境、不同时间遇到的情况不一样,导致模型不收敛,有时会出现模型崩溃、毁灭性遗忘,环境复杂性,模拟环境难以体现真实环境的复杂性,导致系统在真实环境中不稳定,本体适应性,虚拟智能体运行在服务器或集群计算架构上,以虚拟体(数字孪生)的形式运行,其实体运行在嵌入式或边缘计算架构上,其实体跟虚拟体有差别。
发明内容
本发明提供的发明目的在于提供跨平台强化学习的机器人训练系统,解决上述背景技术中的问题。
为实现以上目的,本发明通过以下技术方案予以实现:跨平台强化学习的机器人训练系统,包括以下步骤:
步骤一、智能体通过Actor进行推演和采样。
步骤二、Actor把采集好的样本上传到Trainer,Trainer进行训练。
步骤三、Trainer把训练好的模型下发给Actor。
步骤四、一个Trainer可以连接多个Actor,采用异步式并行模式完成推演和训练步骤。
进一步的,根据步骤一中的操作步骤,所述模拟环境运行在本地、服务器或者集群上,以共享内存或者TCP/UDP方式连接,模拟环境中的物理仿真引擎可以给机器人模型的反馈,模拟环境中的机器人模型包括外形、传感器、制动器、能源管理等,该模型和参数来自机器人设计和测试过程。
进一步的,根据步骤一中的操作步骤,Actor通过该模型与模拟环境交互,完成推演和采样过程,Actor在机器人本体上运行时,通过ROS和硬件驱动连接至传感器、制动器,传感器的输出为ot,制动器输入为at,机器人执行完at,采集到新的观测值ot+1,通过自驱力或者用户输入获得新的奖励rt+1,每个样本为一个数组(o,s,a,r)t,o代表智能体对外部的观测值,s代表智能体的内部状态,a代表智能体当前的行动,r代表奖励强化学习中的奖励值,我们以POMDP表示他们之间的关系:
st~p(st|ot,st-1,at-1)
at~π(at|st)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南太观科技有限公司,未经湖南太观科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111207658.6/2.html,转载请声明来源钻瓜专利网。