[发明专利]基于一致性约束建模的强化学习机器人控制方法及系统有效

申请号：	202110768179.5	申请日：	2021-07-05
公开（公告）号：	CN113485107B	公开（公告）日：	2023-08-22
发明（设计）人：	李秀;贾若楠	申请（专利权）人：	清华大学深圳国际研究生院
主分类号：	G05B13/04	分类号：	G05B13/04
代理公司：	北京纪凯知识产权代理有限公司 11245	代理人：	孙楠
地址：	518071 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于一致性约束建模强化学习机器人控制方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种基于一致性约束建模的强化学习机器人控制方法及系统，其包括：初始化环境和各网络参数；利用与真实环境的交互数据训练环境模型；利用策略网络πsubgt;φ/subgt;与训练后的环境模型交互，将交互数据存放在数据存放器Dsubgt;model/subgt;中；根据环境模型，采用Soft Actor‑Critic方法进行策略训练；重复执行直至收敛。本发明能减少对建模的误差，增加环境建模的准确性和鲁棒性，提高稳定性。本发明可以广泛在机器人控制领域中应用。

技术领域

本发明涉及一种机器人控制领域，特别是关于一种基于一致性约束建模的强化学习机器人控制方法及系统。

背景技术

近年来，深度学习在图像处理、语音合成、自然语言处理等领域取得一系列重大突破。深度强化学习是将深度学习的智能感知能力与强化学习的决策能力相结合，直接通过对高维感知输入的学习最终实现智能体的自主行为控制，描述的是智能体为实现任务而连续作出决策控制的过程。同时，强化学习已经在游戏对抗、机器人控制等领域取得了突破性进展。

深度强化学习具有一定的自主学习能力，无需给定先验知识，只需与环境进行不断交互，最终通过训练找到适合当前状态的最优策略，进而获得整个决策过程的最大累积奖励回报。根据智能体对交互环境信息的利用方法，强化学习可分为无模型强化学习和模型化强化学习两大类。无模型强化学习方法是智能体不断探索环境，不断试错，通常需要大量训练样本及训练时间，才能保证智能体满足一定要求。模型化强化学习方法首先需要对环境建模，得到环境模型后，此类方法无需与真实环境交互，可直接利用学得的环境模型生成所需训练样本进行策略学习，从而在一定程度上缓解样本利用率低及学习效率低的问题。另外，如果所学得的环境模型足够精确，智能体就可根据该模型在其从未访问过的区域进行策略搜索。然而，学得的环境模型与真实环境间往往存在模型误差，难以保证算法的最优解渐近收敛。

在模型化强化学习的机器人控制领域，相关现有技术中的基于模型相关强化学习的仿人机器人步态控制方法，其使用强化学习来对仿人机器人行走过程中的步态进行控制，从而使仿人机器人的行走控制能通过与环境交互来进行自主调节，使仿人机器人在前后方向上保持稳定。但是该技术存在以下缺陷：(1)现有技术根据当前状态和值函数，使用梯度下降法求解出最优的控制动作，会存在策略退化问题，即值函数估计准确，但通过值函数得到的策略仍然不是最优。(2)现有技术采用单一的高斯模型，对环境建模能力弱，存在较大建模误差。(3)现有技术采用原始的Dyna-Q强化学习方法，算法的渐进性能低，且数据利用效率低。

发明内容

针对上述问题，本发明的目的是提供一种基于一致性约束建模的强化学习机器人控制方法及系统，其能减少对建模的误差，增加环境建模的准确性和鲁棒性，提高稳定性。

为实现上述目的，本发明采取以下技术方案：一种基于一致性约束建模的强化学习机器人控制方法，其包括：步骤1、初始化环境和各网络参数；步骤2、利用与真实环境的交互数据训练环境模型；步骤3、利用策略网络π_φ与训练后的环境模型交互，将交互数据存放在数据存放器D_model中；步骤4、根据环境模型，采用Soft Actor-Critic方法进行策略训练；步骤5、重复执行步骤2至步骤4，直至收敛。

进一步，所述步骤1中，初始化构建策略网络π_φ，Q函数网络Q_ψ，Q-target函数网络及环境模型以及构建真实环境的数据存放器D_env←φ和预测环境模型的数据存放器D_model←φ。

进一步，所述步骤2中，环境模型的训练方法包括以下步骤：

步骤21、利用策略π_φ与真实环境交互，将交互数据存放在真实环境的数据存放器D_env；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于清华大学深圳国际研究生院，未经清华大学深圳国际研究生院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110768179.5/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G05 控制；调节
G05B 一般的控制或调节系统；这种系统的功能单元；用于这种系统或单元的监视或测试装置
G05B13-00 自适应控制系统，即系统按照一些预定的准则自动调整自己使之具有最佳性能的系统
G05B13-02 .电的
G05B13-04 ..包括使用模型或模拟器的

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于一致性约束建模的强化学习机器人控制方法及系统有效

专利文献下载