[发明专利]基于动态示教数据和行为克隆的深度Q学习网络优化方法有效
申请号: | 202011338992.0 | 申请日: | 2020-11-25 |
公开(公告)号: | CN112396180B | 公开(公告)日: | 2021-06-29 |
发明(设计)人: | 李小双;王晓;王飞跃;金峻臣;陈薏竹 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/04;A63F13/67 |
代理公司: | 北京市恒有知识产权代理事务所(普通合伙) 11576 | 代理人: | 郭文浩;尹文会 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 动态 数据 行为 克隆 深度 学习 网络 优化 方法 | ||
本发明属于信息处理领域,具体涉及一种基于动态示教数据和行为克隆的深度Q学习网络优化方法,旨在为了解决历史示教数据覆盖状态‑动作空间有限和不完美示教数据会影响策略优化方向的问题。本发明包括:对初始行为克隆网络进行有监督的训练得到第一行为克隆网络;基于第二示教数据集,对具有相同网络结构的主网络、目标网络进行预训练,并进一步基于有专家损失的混合损失函数进行主网络的训练;若在训练回合中得到历史最优奖励值,对第二示教数据集进行更新;重复采用更新的第二示教数据集进行网络训练,直至达到结束条件。本发明方法在训练过程中不断加入高质量样本数据,提升示教数据集所代表策略的性能,连续对模型的性能提升产生正向作用。
技术领域
本发明属于信息处理领域,具体涉及一种基于动态示教数据和行为克隆的深度Q学习网络优化方法。
背景技术
深度强化学习(Deep Reinforcement Learning,DRL)近年来取得了很大的进步,例如应用在电子游戏与棋牌类游戏中。借助深度学习强大的特征提取和函数拟合能力,强化学习主体可以直接从原始输入数据(如游戏图像)中提取和学习特征知识,然后根据提取出的特征信息利用传统的强化学习算法学习决策控制策略,而无需人工提取或基于规则以及启发式地学习特征。
但目前,对于在真实环境中解决复杂决策控制问题(例如自动驾驶)的应用方面,深度强化学习技术仍然无法得到实际使用。由于复杂系统的多样性与不确定性,现有的仿真模拟环境很难与真实世界保持一致,而提高模拟系统的精度则成本高昂。因此,如何适应复杂的现实场景将成为DRL模型应用于复杂决策任务最迫切的问题之一。
针对复杂场景下的决策问题,人类专家在学习效率和决策表现方面具有很大的优势,因此在DRL模型中纳入专家知识是一种潜在的解决方案。从示教中进行Q学习的DQfD(结合模仿学习和深度学习的强化学习)方法可以通过学习示教数据,引导智能体学习得到示教数据所代表的策略,以指导和帮助智能体学习专家知识,并在此基础上进行自主学习,提高模型的决策能力。然而,DQfD模型存在以下问题:(1)在DQfD学习过程中,历史示教数据集中的轨迹数据只在预训练中得到了使用,针对模型自主生成的轨迹数据,示教数据没有提供有效的指导;(2)示教数据集十分有限,无法覆盖足够的状态动作空间。而且,在某些实际应用中难以收集到足够的示教数据,比如极端情况再真实情况下较少发生,大量的样本都是正常情况下的数据;(3)DQfD算法忽略了现实应用中普遍存在的历史示教数据的不完善性,这种不完善会对模型性能提升在成负面的影响。
针对以上问题,本发明提出一种基于动态示教数据和行为克隆方法的深度Q学习方法,构建行为克隆(Behavioral Cloning,BC)模型以挖掘历史示教数据并产生专家损失,通过基于交叉熵的专家损失函数将智能体的行为与BC模型生成的行为进行比较。此外,本发明提出了一种自适应增强BC模型的自动更新机制。这种机制试图包含更多高质量的轨迹样本,避免不完善的示教数据可能带来的不利影响。
发明内容
为了解决现有技术中的上述问题,即为了解决历史示教数据覆盖的状态-动作空间有限和不完美示教数据会影响策略优化方向的问题,本发明的第一方面提出了一种基于动态示教数据和行为克隆的深度Q学习网络优化方法,应用于序列决策任务,包括:
S100,基于第一示教数据集,对初始行为克隆网络进行有监督的训练,得到第一行为克隆网络;
S200,基于第二示教数据集,对具有相同网络结构的主网络、目标网络进行预训练;所述主网络基于深度Q学习网络构建;
S300,采用第二示教数据集,基于有专家损失的混合损失函数训练S200优化后的主网络;
S400,若S300取得的奖励值历史最优,基于真实序列决策交互,利用S300优化后的主网络获得交互轨迹,并生成样本数据加入第二示教数据集;
S500,基于S400得到的第二示教数据集,利用更新后的主网络对所述第一行为克隆网络进行有监督的训练,对第一行为克隆网络进行微调;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011338992.0/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置