[发明专利]用于实现导航的可迁移的元学习的无监督DQN强化学习在审

申请号：	202010615964.2	申请日：	2020-06-30
公开（公告）号：	CN111783983A	公开（公告）日：	2020-10-16
发明（设计）人：	帅仁俊;赵宸;马力	申请（专利权）人：	南京工业大学
主分类号：	G06N3/08	分类号：	G06N3/08;G06K9/00;G01C21/20
代理公司：	暂无信息	代理人：	暂无信息
地址：	211816 江苏省***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	用于实现导航迁移学习监督 dqn 强化
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种用于实现导航的可迁移的元学习的无监督DQN强化学习方法，所述方法的ULTRA框架包括三个部分，无监督的对抗性任务生成、共享层次结构策略和元强化学习；所述的无监督的对抗性任务生成的基于任务的对抗性训练过程包含任务生成器和元学习器；任务生成器自动生成多组任务，而没有来自环境的任何监督信号，元学习者将尝试完成这些任务；所述的共享层次结构策略，元学习器的体系结构是共享层次结构策略，其中包含一个主策略和一组子策略；在每个主时间脉络中，主策略首先根据算法随机进行选择要激活的子策略，然后所选的子策略执行主操作。所述的元强化学习，是使用强化学习的算法对整个任务中所有主策略下分配的子策略的参数进行优化。

所属技术领域：

本发明涉及机器学习中图像分类和处理，以及无监督的deep-Q network强化学习。

背景技术：

视觉导航是通过仅使用视觉观察智能地导航到目标对象(例如电视)来训练具体化主体的任务。当前的深度强化学习模型的关键挑战在于对大量训练数据的需求。构建足够的带有目标对象信息的3D合成环境非常昂贵。在本发明的技术方案中，专注于资源匮乏的环境中的视觉导航，在该环境中，只有少数训练环境带有对象信息。

DQN有一个记忆库用于学习之前的经历.Q-learning是一种off-policy离线学习法，它能学习现在、过去以及将来经历的信息数据，每次DeepQnetwork 更新的时候，可以随机提取一些过去的记录数据进行学习。随机抽取有点类似 dropout的操作，打乱了数据之间的相关性，也使得神经网络更新更有效率。本发明的技术方案提出了一种新颖的无监督强化学习方法，可以从无注释的环境中学习可转移的知识基础技能(例如，绕过障碍物、直行)。然后，当提供视觉导航指定的奖励时，Agent可以通过学习高级主策略来组合这些元技能，从而快速适应视觉导航。

发明内容：

在本发明的技术方案中，提出了一种新颖的可交易性元技能无监督强化学习(ULTRA)框架，它使代理能够从基于课程的对抗性训练过程中学习可转换性元技能。发现子策略显示出一致的运动原语(例如，绕过障碍物，直行)，通过无监督的强化学习来学习有意义的元技能。

本发明的技术方案目标是使用无人监督的强化学习来学习可转移的元技能，这些元技能可以被具体化的代理用来快速掌握室内3D场景中的视觉导航。在基于课程的对抗训练过程中，任务生成器会自动提出任务课程，元学习者将学习如何完成这些任务。貝体来说，元学习器的体系结构是共享的分层策略。对于任务生成器生成的每个任务，元学习器首先重新初始化主策略，然后学习组合子策略以完成任务。在使主策略适应新任务后，应用了元强化学习算法来优化子策略，以在各个任务之间实现出色的性能。如图所示1，本发明的技术方案的ULTRA框架主要包括三个部分：

1无监督的对抗性任务生成：基于任务的对抗性训练过程包含任务生成器和元学习器。任务生成器自动生成多组任务，而没有来自环境的任何监督信号，元学习者将尝试完成这些任务。

DQN的对抗训练过程不涉及任何手动设计的任务。任务生成器自动生成任务课程，以供元学习者完成。随着任务变得越来越复杂，元学习者需要学习有意义、奖励的运动以及抵达到s_T后得到的信息o_T所带来的奖励，这样主策略就可以选择基于任务生成器生成的新任务来说性能较优的主策略。

本发明的技术方案的目标是自动生成多样化任务的集合，从简单的任务开始逐渐增加难度，之后随机生成难度不等的任务。任务生成器的奖励功能包括四个部分：是否能达到任务要求的目的位置来定义的奖励：d1；任务生成器在路程中是否为最佳路径，若不是错误步数多还是少来定义的奖励d2；以及任务的复杂程度(障碍的多少，路程是否曲折)：d3；任务生成器完成任务所花的时间所定义的奖励d4。之后将这四种奖励通过激励函数F，再加上偏置项b，即可得到奖励系数k：

k＝F(avg(d1，d2，d3，d4))

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京工业大学，未经南京工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010615964.2/2.html，转载请声明来源钻瓜专利网。

上一篇：水果处理机
下一篇：图像选择方法、装置、计算机设备及存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]用于实现导航的可迁移的元学习的无监督DQN强化学习在审

专利文献下载