[发明专利]一种用于强化学习的状态数据生成方法和系统有效

申请号：	201910172638.6	申请日：	2019-03-07
公开（公告）号：	CN110033096B	公开（公告）日：	2021-04-02
发明（设计）人：	卢宗青;姜杰川	申请（专利权）人：	北京大学
主分类号：	G06N20/00	分类号：	G06N20/00
代理公司：	北京辰权知识产权代理有限公司 11619	代理人：	刘广达
地址：	100871***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种用于强化学习状态数据生成方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种用于强化学习的状态数据生成方法和系统，包括：获取智能体在第一学习阶段的所有第一状态数据，并获取第一状态数据中距学习目标符合预设步数范围的第二状态数据；用第一状态数据训练变分自动编码机，得到已训练好的变分自动编码机的编码器并采样得到多个第一潜在变量；将第二状态数据输入已训练好的所述编码器，得到多个第二潜在变量；从第一潜在变量和第二潜在变量中选出符合预设条件的第三潜在变量；将第三潜在变量输入变分自动编码机的解码器，生成第二学习阶段的初始状态数据。通过生成新的状态数据，使智能体以一定概率从新的状态数据而非原始状态数据开始探索，缩短了探索用时，增加了奖励次数，适用于任何强化学习方法。

技术领域

本申请涉及深度强化学习领域，尤其涉及一种用于强化学习的状态数据生成方法和系统。

背景技术

深度强化学习(Deep Reinforcement Learning，DRL)已经在围棋、机械臂等连续决策任务中取得显著成功。在强化学习中(Reinforcement Learning，RL)，智能体(Agent)通过观察环境(Environment)状态(State)，选择回报(Reward)期望最大的动作，并接收环境给出的反馈。通过时序差分或策略梯度的方法进行训练，或者二者结合的演员-评论家算法(Actor-Critic Algorithm)。然而在现实应用中，一个常见的问题是奖励(Reward)稀疏，一些任务只有在完成目标时才能获得奖励，其他情况下奖励均为零。并且目标很难通过传统的探索策略探索到，这给训练智能体带来巨大挑战。在这种情境下，通过精心设计来改变奖励函数使其不再稀疏并不可行，因为这需要依赖专家经验且容易偏离最初目标，使得智能体策略产生偏差。

目前有很多方法为解决这一问题而设计。例如采集专家的行为并利用模仿学习，然而专家行为的采集本身就是很困难的。事后经验回放(Hindsight Experience Replay，HER)通过设置一些不同于最初设定的目标，这本质上是一种数据增强的方法，且学到的目标通常不是最终的目标。探索类的方法可以分为两类，基于计数的探索和基于好奇心的探索。它们都是通过量化状态的新奇度并作为一个内部的奖励来激励智能体探索新的状态。但是内部奖励的引入偏离了最初的目标，且容易带来训练过程的不稳定。

综上所述，需要提供一种奖励次数多，不偏离目标且训练过程稳定的状态生成方法与系统。

发明内容

为解决以上问题，本申请提出了一种用于强化学习的状态数据生成方法和系统。

一方面，本申请提出一种用于强化学习的状态数据生成方法，包括：

获取智能体在第一学习阶段的所有第一状态数据，以及，获取所有第一状态数据中距学习目标符合预设步数范围的第二状态数据；

利用所述所有第一状态数据训练变分自动编码机，得到已训练好的变分自动编码机的编码器并采样得到多个第一潜在变量；

将所述第二状态数据输入所述已训练好的变分自动编码机的编码器，得到多个第二潜在变量；

采用拒绝采样算法，从所述第一潜在变量和所述第二潜在变量中选出符合预设条件的第三潜在变量；

将所述第三潜在变量输入所述变分自动编码机的解码器，生成所述智能体在第二学习阶段的初始状态数据。

优选地，所述利用所述所有第一状态数据训练变分自动编码机，得到已训练好的变分自动编码机的编码器并采样得到多个第一潜在变量，包括：

利用所述所有第一状态数据训练变分自动编码机，得到已训练好的变分自动编码机的编码器；

对所述编码器的隐空间进行采样，得到多个第一潜在变量。