[发明专利]路径规划模型的训练、路径规划方法、装置及电子设备有效
申请号: | 202111035827.2 | 申请日: | 2021-09-06 |
公开(公告)号: | CN113467487B | 公开(公告)日: | 2021-11-23 |
发明(设计)人: | 徐博;成芳娟;张鸿铭;王燕娜 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G05D1/02 | 分类号: | G05D1/02 |
代理公司: | 北京墨丘知识产权代理事务所(普通合伙) 11878 | 代理人: | 谷轶楠 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 路径 规划 模型 训练 方法 装置 电子设备 | ||
本发明实施例涉及强化学习技术领域,具体涉及路径规划模型的训练、路径规划方法、装置及电子设备,其中,所述训练方法包括:获取样本数据以及剩余决策次数,所述样本数据包括当前时刻的环境状态以及损失计算参数;将当前时刻的环境状态以及剩余决策次数输入路径规划模型,并利用剩余决策次数对路径规划模型预测结果中的非空动作进行约束,以输出当前时刻的执行动作并更新所述剩余决策次数,所述路径规划模型是基于强化学习模型建立的;根据当前时刻的执行动作以及损失计算参数进行损失函数的计算,并基于计算结果更新路径规划模型的参数,以确定目标路径规划模型。将决策次数作为约束条件,使得训练得到的目标路径规划模型能够应用在决策次数受限的场景下。
技术领域
本发明涉及强化学习技术领域,具体涉及路径规划模型的训练、路径规划方法、装置及电子设备。
背景技术
强化学习用于描述和解决目标体在与环境的交互过程中通过学习策略以达成累计回报最大化或实现特定目标的问题。强化学习的常见模型是标准的马尔科夫决策过程(MDP),一个MDP定义为四元组(S,A,P,R),其中S表示环境状态的集合;A为动作集合,即目标体的输出值域;P为转移概率,定义了环境根据动作的状态转移;R为奖励函数,定义了动作获得的奖励,MDP寻找最优动作策略以最大化累计奖赏。具体地,策略是指态势S到动作A的映射,策略常用符号π表示,指给定状态S时,动作集上的一个分布,强化学习就是找到最优的策略,即优化策略网络(输入为当前时刻状态,输出为动作集上的概率分布),这里的最优是指获得的累计回报最大。
例如,在每个离散时刻t=0,1,…,T,目标体和环境都发生交互,在每个时刻t,目标体根据观测到的环境状态st∈S,选择一个动作at∈A(st),环境接收到动作转移到下一时刻的状态st+1,且返回动作对应的奖励值Rt∈R,如此反复直到最终的时刻T,从而形成一个序列或轨迹s0,a0,R0,…,sT,aT,RT。
由此可知,强化学习场景是每个时刻目标体与环境交互都会输出一个动作,例如,Actor-Critic网络,利用Actor网络决策当前时刻的动作,Critic网络计算执行该动作的状态值,并将状态值反馈给Actor网络进行损失函数计算,以更新网络参数。在Actor网络预测出下一个动作时,目标体就会执行该有效动作。然而,由于在决策次数受限的场景下,不是每个时刻目标体与环境交互都会正常输出有效的动作的,因此,这种方式对于决策次数限制的场景下并不适用。
发明内容
有鉴于此,本发明实施例提供了一种路径规划模型的训练、路径规划方法、装置及电子设备,以解决强化学习模型在决策次数受限场景下的应用问题。
根据第一方面,本发明实施例提供了一种路径规划模型的训练方法,包括:
获取样本数据以及剩余决策次数,所述样本数据包括当前时刻的环境状态以及损失计算参数,所述损失计算参数用于损失函数的计算;
将所述样本数据以及所述剩余决策次数输入路径规划模型,并利用所述剩余决策次数对所述路径规划模型的预测结果中的非空动作进行约束,以输出当前时刻的执行动作并更新所述剩余决策次数,所述路径规划模型是基于强化学习模型建立的;
根据所述当前时刻的执行动作以及所述损失计算参数进行损失函数的计算,并基于计算结果更新所述路径规划模型的参数,以确定目标路径规划模型。
本发明实施例提供的路径规划模型的训练方法,在训练过程中引入了剩余决策次数,且每输出一个决策动作均对剩余决策次数进行更新,即将决策次数作为路径规划模型训练的约束条件,使得训练得到的目标路径规划模型能够应用在决策次数受限的场景下。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111035827.2/2.html,转载请声明来源钻瓜专利网。