[发明专利]一种基于元模拟学习的多任务智能机器人学习方法及装置有效
申请号: | 202011022727.1 | 申请日: | 2020-09-25 |
公开(公告)号: | CN114248265B | 公开(公告)日: | 2023-07-07 |
发明(设计)人: | 雷渠江;桂光超;李秀昊;王雨禾;金锦涛;王卫军 | 申请(专利权)人: | 广州中国科学院先进技术研究所 |
主分类号: | B25J9/16 | 分类号: | B25J9/16;G06N3/084;G06N3/096;G06N3/0985;G06N3/0464 |
代理公司: | 广州容大知识产权代理事务所(普通合伙) 44326 | 代理人: | 刘新年 |
地址: | 511458 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 模拟 学习 任务 智能 机器人 学习方法 装置 | ||
1.一种基于元模拟学习的多任务智能机器人学习方法,其特征在于,所述方法包括:
获取所有的初始示教数据集、所有的元训练任务集、所有的配对阈值、训练批次和初始元策略,其中,训练批次为B,配对阈值为α,初始元策略为π;
通过one-shot模拟学习对所述初始元策略进行预训练,获取最优训练参数的第一元策略;
建立一个第一试验数据集;
进行B次训练将第一试验数据集更新为第二试验数据集;
从第二试验数据集中依次的根据所有的两个不同的试验进行余弦距离运算,进而对比余弦距离与配对阈值α之间的关系,当余弦距离大于或等于配对阈值α时,对应的两个不同的试验以成对的形式加入到第二试验数据集中;
当第二试验数据集中所有的两个不同的试验全部运算完成后,第二试验数据更新为第三试验数据;
根据第三试验数据,通过one-shot模拟学习进行训练,利用神经网络将第一元策略参数化为第二元策略;
利用第二元策略,以各个示教数据集为输入,输出一个智能机器人的行为分布;
通过one-shot模拟学习对所述初始元策略进行预训练的过程包括:
获取所述初始示教数据集;
将所述初始示教数据集输入到所述初始元策略进行计算获取所述的行为分布;
根据考虑参数形式的所述初始元策略分析所有的所述初始元策略的参数对应的损失函数;
在损失函数数值最低时所述初始元策略的参数被设置为第一目标参数,并将第一目标参数所对应的所述初始元策略设置为第一元策略;
所述初始示教数据集表示为以下第一计算公式:
D={d1,d2,...dN}
其中,dN为第N个示教,D为所述初始示教数据集,N为示教序号;
各示教都包含一个观察轨迹、一个行动轨迹;
所述第N个示教表示为以下第二计算公式:
其中,dn为第n个示教,为在dn中的第T个观测值,为机器人的第T个最优动作;
考虑参数形式的所述初始元策略表示为以下第三计算公式:
πθ=(at|ot)
其中,πθ为优化机器人动作的策略,θ是神经网络的参数;
所述初始元策略的参数采用随机梯度下降法训练,所述初始元策略的参数对应的损失函数表示为以下第四计算公式:
其中,Lbc为损失函数,为对于观测值的动作的分布;
所述的余弦距离运算过程包括:
从第二试验数据集中依次的根据所有的两个不同的试验dm和dn;
将演示嵌入到固定长度向量;
通过距离函数第五计算公式计算两个试验之间距离;
所述第五计算公式为:
其中,Hθ(dn,dm)为dn和dm的距离度量函数;
所述第一元策略条件设置在dn上时,dm上的损失函数用以下第六计算公式得到:
通过对所有的元训练任务集的所有任务和可从同一任务中提取的所有的示教对求和,获得的one-shot模拟学习损失函数用以下第七计算公式得到:
其中,Loil是对于参数θ和示教{Di}的损失函数,M是培训任务的总数;
使用第一试验数据集将收集的试验组织成新的任务,在其中嵌入任何给定的试验,并计算试验之间有意义的距离;如果发现两个试验在潜在空间中彼此接近,则将两个试验添加到所述第一试验集中;
并对比损失函数是否满足第八计算公式;
所述第八计算公式为:
其中,Lc为对比损失函数,l(·)函数是指示函数,在l(·)函数输入为true时,返回1,否则返回0;β设为1,M是培训任务的总数;
通过one-shot模拟学习损失,并用以下第九计算公式获得:
L(θ,{Di})=Loil(θ,{Di})+Lc(θ,{Di})
其中,Loil和Lc分别由第七计算公式和第八计算公式定义,M是培训任务的总数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州中国科学院先进技术研究所,未经广州中国科学院先进技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011022727.1/1.html,转载请声明来源钻瓜专利网。