[发明专利]样本池构建方法和装置、以及算法训练方法和装置有效
申请号: | 201910948684.0 | 申请日: | 2019-09-30 |
公开(公告)号: | CN110717600B | 公开(公告)日: | 2021-01-26 |
发明(设计)人: | 张玥;霍雨森;朱翔宇;徐浩然;邓欣;王小波;詹仙园;郑宇;李春洋;张钧波 | 申请(专利权)人: | 京东城市(北京)数字科技有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 吕朝蕙 |
地址: | 100086 北京市海淀区知春路7*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 样本 构建 方法 装置 以及 算法 训练 | ||
1.一种样本池构建方法,包括:
获取控制系统的历史数据,所述历史数据包括表征所述控制系统在多个历史时刻的状态的多个状态数据,以及与所述多个状态数据一一对应的多个动作向量,其中,每个动作向量用于表征所述控制系统处于对应的状态数据表征的状态时,所述控制系统执行的动作;
根据历史数据生成多个真实样本;
根据所述历史数据及预定仿真模型,生成多个仿真样本;以及
将所述真实样本与所述仿真样本按个数的第一预定比例存储至预定存储空间,构成混合样本池,
其中,所述生成多个所述仿真样本包括:
从所述历史数据中选取初始状态数据;以及
以所述初始状态数据作为第一状态数据,循环执行以下第一循环操作:
以所述第一状态数据作为强化学习算法的输入,得到针对所述第一状态数据的第一动作向量;
以所述第一状态数据及所述第一动作向量作为所述预定仿真模型的输入,得到第二状态数据;
根据所述第一状态数据、所述第一动作向量以及所述第二状态数据,生成一个所述仿真样本;以及
采用所述第二状态数据更新所述第一状态数据,
其中,第一状态数据为针对第一时刻的数据,所述第二状态数据为针对第二时刻的数据,所述第二时刻为所述第一时刻的下一时刻;所述预定仿真模型为长短时记忆网络模型。
2.根据权利要求1所述的方法,其中:
所述仿真样本包括:所述第一状态数据、所述第二状态数据、所述第一动作向量以及针对所述仿真样本的奖励值;
所述第一循环操作还包括:根据所述第一动作向量以及所述第一状态数据,确定针对所述仿真样本的奖励值。
3.根据权利要求2所述的方法,其中,确定针对所述仿真样本的奖励值包括:
确定所述第一动作向量中每个元素在针对所述每个元素的取值空间中所属的取值区间;
根据所述每个元素针对所属的取值区间的概率与预定概率的大小关系,确定针对所述仿真样本的惩罚系数;以及
根据所述惩罚系数、所述第一状态数据及预定算法,计算得到针对所述仿真样本的奖励值。
4.根据权利要求3所述的方法,其中,确定针对所述仿真样本的惩罚系数包括:
根据所述每个元素针对所属的取值区间的概率与针对所述每个元素的预定概率的大小关系,确定针对所述每个元素的惩罚系数;以及
累加针对所述第一动作向量中所述每个元素的惩罚系数,得到针对所述仿真样本的惩罚系数,
其中,所述每个元素针对所属的取值区间的概率通过对所述多个真实样本包括的第二动作向量进行统计得到。
5.根据权利要求3所述的方法,其中,计算得到针对所述仿真样本的奖励值包括:
根据所述第一状态数据及第一算法,计算得到针对所述仿真样本的初始奖励值;
根据针对所述仿真样本的惩罚系数及第二算法,计算得到针对所述仿真样本的奖励调整参数;以及
将所述初始奖励值与所述奖励调整参数相除,得到针对所述仿真样本的奖励值,
其中,所述预定算法包括所述第一算法和所述第二算法。
6.根据权利要求3所述的方法,其中:
所述混合样本池中的仿真样本包括:惩罚系数大于预定值的负仿真样本;以及惩罚系数小于等于预定惩罚值的正仿真样本;
所述将所述真实样本与所述仿真样本按个数的第一预定比例存储至预定存储空间,构成所述混合样本池包括:
根据所述第一预定比例、所述预定存储空间的存储容量及所述多个仿真样本的个数,确定需要存储至所述预定存储空间的仿真样本的个数;
从所述多个仿真样本中获取至少一个正仿真样本和惩罚系数满足第二预设条件的至少一个负仿真样本,得到需要存储至所述预定存储空间的仿真样本;以及
将需要存储至所述预定存储空间的仿真样本及个数满足所述第一预定比例的真实样本存储至所述预定存储空间。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于京东城市(北京)数字科技有限公司,未经京东城市(北京)数字科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910948684.0/1.html,转载请声明来源钻瓜专利网。