[发明专利]一种具有自适应能力的高效强化学习策略模型在审
申请号: | 201910410197.9 | 申请日: | 2019-05-15 |
公开(公告)号: | CN111950690A | 公开(公告)日: | 2020-11-17 |
发明(设计)人: | 赵婷婷;韩雅杰;杨巨成;陈亚瑞;任德华;王嫄 | 申请(专利权)人: | 天津科技大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 300456 天津市经济技术开发区第*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 具有 自适应 能力 高效 强化 学习 策略 模型 | ||
在传统的策略搜索强化学习方法中,为了快速得到有效的策略,策略模型一般都是为特定任务专门设定的低维空间策略模型,而这种策略模型在实际应用表现力十分有限,泛化能力差,很难适应其他的任务。根据以上问题,本发明提出一种具有自适应能力的高效强化学习策略模型,所提出的策略模型以感知状态的低维表示及智能体对自身行动所引发的环境变化的预测作为策略的输入。这种策略所建立的策略模型具有较高的泛化能力,即使任务发生了细微变化,智能体仍然能够根据自身对未来的预测进行自适应地调整策略,从而得到泛化能力强的高效策略。
技术领域
本发明涉及机器学习领域,更具体说是涉及一种具有自适应能力的高效强化学习策略模型
背景技术
深度强化学习通过端对端的学习方式实现从输入到输出的直接控制,使强化学习能够扩展到以前难以处理的具有高维状态和动作空间的决策问题,它为整个社会实现真正智能化提供了有力技术支撑,成为当前备受关注的研究热点。现有深度强化学习方法面对给定的任务可以在训练环境中表现极好,但是往往不能泛化到环境中看似微小的变化。
原则上,一个鲁棒而高性能的学习系统原则上应该能处理任何任务,或是快速适应到新的环境或任务中去。强化学习的泛化能力与其他学习类型有所不同,主要区别在于要求学成的策略在无需额外学习的情况下能够迁移地应用到其他领域中。如,一个智能体经过训练能在平稳地段直立行走,如果它具有泛化能力或知识迁移能力,在崎岖不平的地形上,它依然能够平稳行走。当前认知传感技术已经变得更好,而深度强化学习的泛化能力还不足以处理多样的任务集合,难以实现通用人工智能的最终目标。所以,模型的泛化问题是深度强化学习领域亟待解决的另一个重要问题。
因此,本发明提出一种具有自适应能力的高效强化学习策略模型,该模型的建立,使得智能体在应对发生变化的任务时,可以根据自身对未来的预测,自适应性地对策略进行调整,从而较为有效地解决策略模型的泛化问题。
发明内容
本发明的目的在于克服现有技术的不足之处,提供一种具有自适应能力的高效强化学习策略模型。
本发明解决技术问题所采用的技术方案是:
为了能够在强化学习领域高效训练出可自适应到新的环境及任务上的策略模型,本发明拟在表达能力极强的环境模型及动作模型的基础上,提出以感知状态在潜在空间中的低维表示及智能体对自身行动所引发环境变化的预测作为策略的输入,在动作表示的潜在空间构建小规模的策略模型,从而可以快速高效得到更具泛化能力,更可解释的策略模型,如附图所示。具体地,执行策略所需的输入,即感知状态的低维表示及智能体对自身行动所引发环境变化的预测,策略的输出是执行动作的概率。对于状态的潜在表示,利用变分自编码器采用监督学习的方式进行离线训练。对于智能体对自身行动所引发的环境变化的预测,利用递归型神经网络采用无监督学习的方式预测网络在下一个时刻自身的隐状态。
在训练中,将状态表示、智能体对自身行动所引发环境变化的预测及策略模型分开训练,使得在智能体的多数复杂度置于状态表示中,通过利用状态的潜在表示,使策略学习聚焦于小搜索空间,只需要少量真实样本的在线学习就可以得到适应于当前环境及任务的策略,从而提高策略的学习效率。在环境预测信息的协助下,即使任务发生了细微变化,智能体能够根据自身对未来的预测进行自适应地调整策略,从而得到泛化能力强的高效策略。
附图说明
为了更清楚的说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单介绍,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
附图为本发明提供的一种具有自适应能力的高效强化学习策略模型的结构示意图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津科技大学,未经天津科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910410197.9/2.html,转载请声明来源钻瓜专利网。