[发明专利]一种任务执行方法及装置、电子设备和存储介质有效
申请号: | 202110231106.2 | 申请日: | 2021-03-02 |
公开(公告)号: | CN112906888B | 公开(公告)日: | 2023-05-09 |
发明(设计)人: | 沈天龙;张啸川 | 申请(专利权)人: | 中国人民解放军军事科学院国防科技创新研究院 |
主分类号: | G06N3/092 | 分类号: | G06N3/092;G06N3/094;G06N3/096;G06N3/0464;G06N3/0475 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 苗晓静 |
地址: | 100071 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 任务 执行 方法 装置 电子设备 存储 介质 | ||
本发明提供一种任务执行方法及装置、电子设备和存储介质。其中,任务执行方法包括:获取现实环境感知数据;将现实环境感知数据输入至任务执行模型中,得到决策行动数据;根据决策行动数据执行相应的任务;其中,任务执行模型为根据获取的仿真环境感知数据样本、仿真决策行动样本、对应的决策奖励值样本、行动后的仿真环境感知数据样本和现实环境感知数据样本进行训练得到。在本发明中,通过利用获取的多种数据样本训练任务执行模型,并根据将获取的现实环境感知数据输入至训练好的任务执行模型所得到的决策行动数据执行相应的任务,极大的缩小了仿真环境与现实环境之间存在的差距,提高了任务执行模型由仿真环境迁移至现实环境的迁移效果。
技术领域
本发明涉及深度强化学习模型虚实迁移技术领域,尤其涉及一种任务执行方法及装置、电子设备和存储介质。
背景技术
强化学习是机器学习的一个分支,它与有监督学习或无监督学习不同,它主要基于环境和模型进行互动。具体而言,强化学习用于描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。随着“深度学习”方法的兴起,“深度学习”与强化学习结合形成了深度强化学习;进一步的,将深度强化学习与神经网络建模相结合,便形成了深度强化学习模型。深度强化学习模型,已经成为了人工智能研究中竞争最激烈的领域之一。
深度强化学习模型大多应用于仿真、视频游戏等非真实物理环境,并且已经取得了极大的成功。然而,强化学习在真实物理系统上的复杂策略仍存在很大的挑战。强化学习需要智能体与环境进行大量的交互,但是实物机器人强化学习从现实环境中在线试错获取样本的代价极高,完全通过在线强化学习来实现强化学习在实际物理空间中的应用是不切实际的;然而,又由于仿真与现实存在差距,因此将在仿真中训练的策略迁移到实际系统中部署时通常效果不佳。
上述技术方案存在的缺陷或不足包括:将强化学习模型由仿真环境迁移至现实环境时,存在迁移效果差的问题。
发明内容
针对现有技术中存在的问题,本发明的实施例提供一种任务执行方法及装置、电子设备和存储介质。
本发明提供一种任务执行方法,包括:
获取现实环境感知数据;
将所述现实环境感知数据输入至任务执行模型中,得到决策行动数据;
根据所述决策行动数据执行相应的任务;
其中,所述任务执行模型为根据获取的仿真环境感知数据样本、仿真决策行动样本、对应的决策奖励值样本、行动后的仿真环境感知数据样本和现实环境感知数据样本进行训练得到。
根据本发明提供的一种任务执行方法,所述任务执行模型的训练方法包括:
基于所述仿真环境感知数据样本在仿真环境中对深度网络模型进行深度强化学习训练,得到训练好的深度网络模型,其中,所述深度网络模型包括图像编码层和决策层;
基于仿真环境感知数据样本和所述现实环境感知数据样本通过生成对抗网络模式训练现实环境编码网络,生成训练好的所述现实环境编码网络,其中,所述生成对抗网络包括仿真环境编码层、现实环境编码层和判别层;
将所述决策层与所述现实环境编码层进行组合,得到所述任务执行模型。
根据本发明提供的一种任务执行方法,所述基于所述仿真环境感知数据样本在仿真环境中进行深度强化学习训练,得到训练好的所述深度网络模型,包括:
将所述仿真环境感知数据样本输入至所述仿真环境编码层,得到第一编码特征样本;
将所述第一编码特征样本输入至决策层,得到所述决策行动数据样本、所述对应的决策奖励值样本以及所述行动后的仿真环境感知数据样本;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军军事科学院国防科技创新研究院,未经中国人民解放军军事科学院国防科技创新研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110231106.2/2.html,转载请声明来源钻瓜专利网。