[发明专利]生成器网络和策略生成网络的训练方法、装置和电子设备在审
申请号: | 202010867110.3 | 申请日: | 2020-08-26 |
公开(公告)号: | CN112016611A | 公开(公告)日: | 2020-12-01 |
发明(设计)人: | 白沁洵;尼尔·拉茨拉夫;徐伟 | 申请(专利权)人: | 南京地平线机器人技术有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N20/00 |
代理公司: | 北京唐颂永信知识产权代理有限公司 11755 | 代理人: | 刘伟 |
地址: | 210046 江苏省南京市*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 生成器 网络 策略 生成 训练 方法 装置 电子设备 | ||
1.一种生成器网络的训练方法,包括:
获取用于增强学习任务的训练用当前状态向量、训练用动作向量和与所述训练用当前状态向量和训练用动作向量对应的训练用下一状态向量以及由其确定的真实的后验概率分布;
将已知概率分布的一组随机噪声向量输入生成器网络以获得一组预测网络,所述生成器网络包括多个网络单元,每个网络单元用于生成所述预测网络的一层;
将所述训练用当前状态向量和所述训练用动作向量输入所述一组预测网络以获得预测性的概率分布;
确定所述预测性的概率分布与所述真实的后验概率分布之间的KL散度值;以及
基于所述KL散度值来更新所述生成器网络的参数。
2.如权利要求1所述的生成器网络的训练方法,其中,基于所述KL散度值来更新所述生成器网络的参数包括:
使用斯特恩变分梯度下降方法计算所述KL散度值的函数梯度下降值;
基于所述函数梯度下降值更新所述生成器网络的参数。
3.如权利要求2所述的生成器网络的训练方法,其中,使用斯特恩变分梯度下降方法计算所述KL散度值的函数梯度下降值包括:
计算所述生成器网络所生成的每个预测网络的以再现核希尔伯特空间的单元球的预定函数;
计算所述生成器网络与所述预定函数之积关于所述生成器网络的参数的梯度;以及,
将所述梯度对于所述一组预测网络求和以获得梯度和;和
基于所述函数梯度下降值更新所述生成器网络的参数包括:
基于当前生成器网络的参数、所述梯度和和所述第一系数获得更新的生成器网络的参数。
4.如权利要求3所述的生成器网络的训练方法,其中,计算每个预测网络的以再现核希尔伯特空间的单元球的预定函数包括:
计算所述预测网络从当前状态和动作预测出的下一状态与真实的下一状态之间的差异函数值关于所述预测网络的梯度;
将所述梯度关于所述状态空间和动作空间内的所有状态和动作求和并乘以核函数以获得核函数积,所述核函数用于计算相邻两次生成的预测网络之间的距离;以及,
将所述核函数关于所述预测网络的梯度减去所述核函数积并关于所述一组预测网络求和以获得所述预定函数。
5.如权利要求1所述的生成器网络的训练方法,其中,将已知概率分布的一组随机噪声向量输入生成器网络以获得一组预测网络包括:
对于每个预测网络,将从具有对角协方差的标准高斯噪声获得的独立噪声样本输入每个网络单元,以生成所述预测网络的一层。
6.一种用于增强学习的策略生成网络的训练方法,包括:
获取如权利要求1到5中任一项所述的生成器网络的训练方法训练的生成器网络;
由所述生成器网络生成N个预测网络;
获取当前状态向量和由策略生成网络生成的动作向量;
将所述当前状态向量和所述动作向量输入所述N个预测网络以获得N个下一状态向量;
基于所述N个下一状态向量之间的差异计算用于增强学习的内在奖励函数值;以及
基于所述内在奖励函数值更新所述策略生成网络的参数。
7.如权利要求6所述的用于增强学习的策略生成网络的训练方法,其中,基于所述N个下一状态向量计算用于增强学习的内在奖励函数值包括:
计算所述N个下一状态向量的均值向量;
计算所述N个下一状态向量中的每个下一状态向量与所述均值向量的L2距离值以获得N个L2距离值;以及
计算所述N个L2距离值的均值以获得所述用于增强学习的奖励函数值。
8.如权利要求6所述的用于增强学习的策略生成网络的训练方法,其中,
所述下一状态向量包括增强学习任务中的真实的执行任务的对象基于所述当前状态向量和所述动作向量获得的真实的下一状态向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京地平线机器人技术有限公司,未经南京地平线机器人技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010867110.3/1.html,转载请声明来源钻瓜专利网。