[发明专利]在线学习方法有效

申请号：	201810330517.5	申请日：	2018-04-13
公开（公告）号：	CN110390398B	公开（公告）日：	2021-09-10
发明（设计）人：	张德兆;王肖;李晓飞;张放;霍舒豪	申请（专利权）人：	北京智行者科技有限公司
主分类号：	G06N20/00	分类号：	G06N20/00
代理公司：	北京慧诚智道知识产权代理事务所(特殊普通合伙) 11539	代理人：	李楠
地址：	100096 北京市昌平区回***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提供了一种在线学习方法，包括：计算第一动作的第一评价指标；计算第二动作的第二评价指标；当第一评价指标大于第二评价指标时，将场景状态信息和第一动作作为第一缓存数据进行存储；当第一评价指标小于第二评价指标时，将场景状态信息和第一动作、以及第二动作作为第二缓存数据进行存储；第一缓存数据和第二缓存数据构成缓存数据；当缓存数据的数据量大于预设阈值时，从缓存数据中获取采样数据；当采样数据来源于第一缓存数据时，利用强化学习算法对第一系统进行训练；当采样数据来源于第二缓存数据时，利用监督式强化学习算法对第一系统进行训练，提升了决策系统的决策能力和鲁棒性。
搜索关键词：	在线学习方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种在线学习方法，其特征在于，所述方法包括：第一系统根据获取的场景状态信息，生成第一动作，并计算第一动作的第一评价指标；第二系统根据获取的场景状态信息，生成第二动作，并计算第二动作的第二评价指标；比较所述第一评价指标和所述第二评价指标，当所述第一评价指标大于所述第二评价指标时，将所述场景状态信息和所述第一动作作为第一缓存数据进行存储；当所述第一评价指标小于所述第二评价指标时，将所述场景状态信息和所述第一动作、以及所述第二动作作为第二缓存数据进行存储；所述第一缓存数据和所述第二缓存数据构成缓存数据；当所述缓存数据的数据量大于预设阈值时，从所述缓存数据中获取采样数据；判断所述采样数据的来源，当所述采样数据来源于第一缓存数据时，利用强化学习算法对所述第一系统进行训练；当所述采样数据来源于第二缓存数据时，利用监督式强化学习算法对所述第一系统进行训练。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京智行者科技有限公司，未经北京智行者科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810330517.5/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]在线学习方法有效

专利文献下载