[发明专利]样本池构建方法和装置、以及算法训练方法和装置有效

申请号：	201910948684.0	申请日：	2019-09-30
公开（公告）号：	CN110717600B	公开（公告）日：	2021-01-26
发明（设计）人：	张玥;霍雨森;朱翔宇;徐浩然;邓欣;王小波;詹仙园;郑宇;李春洋;张钧波	申请（专利权）人：	京东城市（北京）数字科技有限公司
主分类号：	G06N20/00	分类号：	G06N20/00
代理公司：	中科专利商标代理有限责任公司 11021	代理人：	吕朝蕙
地址：	100086 北京市海淀区知春路7***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	样本构建方法装置以及算法训练
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开提供了一种样本池构建方法，该方法包括：获取历史数据；根据历史数据生成多个真实样本；根据历史数据及预定仿真模型，生成多个仿真样本；以及将真实样本与仿真样本按个数的第一预定比例存储至预定存储空间，构成混合样本池。本公开还提供了一种样本池构建装置、一种算法训练方法和装置。

技术领域

本公开涉及计算机技术领域，更具体地，涉及一种样本池构建方法和装置、以及算法训练方法和装置。

背景技术

近年来，强化学习(Reinforcement Learning)作为机器学习领域的一个研究热点，已经广泛应用于仿真模拟、机器人控制、优化与调度、游戏博弈等诸多领域。强化学习的基本思想是通过与环境的交互，寻求最大化智能体(agent)以从环境中获得累计奖赏值的最优策略。

在实现本公开构思的过程中，发明人发现现有技术中至少存在以下问题：为了解决强化学习中探索(exploration)和利用(exploitation)的选择问题，智能体(agent)在学习与训练时包含两种策略：行为策略和目标策略。行为策略是用来与环境互动产生数据的策略，即在探索过程中做决策。而目标策略在行为策略产生的数据中不断学习及优化，该目标策略即为训练完毕去实际应用的策略。因此，强化学习可分为on-policy(同策略)和off-policy(异策略)两大类算法。同策略算法的行为策略和目标策略是同一个策略，其好处是简单直接，直接利用数据就可以优化其策略，但由于无法很好地保持探索与利用，所以容易陷入到局部最优。异策略的算法将目标策略与行为策略分开，可以在保持探索的同时，更好地求得全局最优解。但异策略算法的学习过程却较为曲折，收敛较慢。

在现实生活中应用强化学习往往十分困难，因为通常情况下(比如在工业控制领域)无法直接与真实环境进行交互与试错。为了解决这一问题，现有的技术主要通过收集一段时间的历史数据，通过这些历史数据建立一个非完美仿真环境，把这个仿真环境当作现实环境，再用同策略的算法进行训练。但由于历史数据涵盖的样本空间有限，基于历史数据拟合得到的仿真环境往往不能完全反映真实环境的场景。

发明内容

有鉴于此，本公开提供了一种样本池构建方法和装置，以及一种能够提高强化学习算法准确率的算法训练方法和装置，以提高基于强化学习算法建立的控制系统的稳定性。

本公开的一个方面提供了一种样本池构建方法，该方法包括：获取历史数据；根据历史数据生成多个真实样本；根据历史数据及预定仿真模型，生成多个仿真样本；以及将真实样本与仿真样本按个数的第一预定比例存储至预定存储空间，构成混合样本池。

根据本公开的实施例，上述生成多个仿真样本包括：从历史数据中选取初始状态数据；以及以初始状态数据作为第一状态数据，循环执行以下第一循环操作：以第一状态数据作为强化学习算法的输入，得到针对第一状态数据的第一动作向量；以第一状态数据及第一动作向量作为预定仿真模型的输入，得到第二状态数据；根据第一状态数据、第一动作向量以及第二状态数据，生成一个仿真样本；以及采用第二状态数据更新所述第一状态数据。其中，第一状态数据为针对第一时刻的数据，第二状态数据为针对第二时刻的数据，第二时刻为第一时刻的下一时刻。

根据本公开的实施例，上述仿真样本包括：第一状态数据、第二状态数据、第一动作向量以及针对仿真样本的奖励值。上述第二循环操作还包括：根据第一动作向量以及第一状态数据，确定针对仿真样本的奖励值。

根据本公开的实施例，上述确定针对仿真样本的奖励值包括：确定第一动作向量中每个元素在针对每个元素的取值空间中所属的取值区间；根据每个元素针对所属的取值区间的概率与预定概率的大小关系，确定针对仿真样本的惩罚系数；以及根据惩罚系数、第一状态数据及预定算法，计算得到针对仿真样本的奖励值。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于京东城市（北京）数字科技有限公司，未经京东城市（北京）数字科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910948684.0/2.html，转载请声明来源钻瓜专利网。

上一篇：融合多种模态的解离化表征学习方法及装置
下一篇：一种基于有监督学习和无监督学习的反欺诈方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]样本池构建方法和装置、以及算法训练方法和装置有效

专利文献下载