[发明专利]一种基于层级强化学习的机器人双轴孔装配方法有效

申请号：	202011107036.1	申请日：	2020-10-16
公开（公告）号：	CN112264995B	公开（公告）日：	2021-11-16
发明（设计）人：	徐静;杨文昊;侯志民	申请（专利权）人：	清华大学
主分类号：	B25J9/16	分类号：	B25J9/16;G06N20/00
代理公司：	北京清亦华知识产权代理事务所(普通合伙) 11201	代理人：	廖元秋
地址：	100084***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于层级强化学习机器人双轴孔装配方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于层级强化学习的机器人双轴孔装配方法，其特征在于，该方法分为训练阶段和实际装配阶段，包括以下步骤：

1)训练阶段；具体步骤如下：

1-1)预先确定层级强化学习方法的装配训练回合总数为L；设定双轴孔装配的目标深度为D，当机器人携带轴到达目标深度D时，一个回合结束；

在双轴孔装配的一个回合中，按照时间顺序将该回合分为n个互不相同的装配阶段，则一个回合中装配阶段序号ω的取值范围为{1，2，3…n}，ω的n种取值分别与装配过程n个互不相同的装配阶段一一对应；

设定奖励函数r(s_t)，代表观测到环境状态s_t时收获的奖励值；设定动作价值函数的学习率α_u，终止函数的学习率α_β，上层策略函数的学习率α_Ω，下层策略函数的学习率α_ω和衰减率γ；

1-2)设定机器人双轴孔装配的上层策略函数为π_Ω(θ_ω|s_t，ω，θ_Ω)，下层策略函数为π_ω(a_t|s_t，θ_ω)，终止函数为β_ω(s_t，θ_β)；

其中上层策略函数的输入量为s_t和ω，s_t代表t时刻观测获得的环境状态，双轴孔装配中的环境状态包括机器人在该时刻的力和扭矩信息[F_x，F_y，F_z，M_x，M_y，M_z]以及该时刻轴的位置位姿信息[P_x，P_y，P_z，O_x，O_y，O_z]，其中，F_x，F_y，F_z分别为机器人在工作空间坐标系下受到的沿x，y，z轴正方向的力，M_x，M_y，M_z分别为机器人在工作空间坐标系下受到的沿x，y，z轴正方向的扭矩，P_x，P_y，P_z分别为轴末端点在工作空间坐标系下的沿x，y，z坐标轴的位置坐标，O_x，O_y，O_z分别为轴线方向相对于x，y，z坐标轴的位置角；θ_Ω代表上层策略函数的参数；θ_ω是上层策略函数的输出量，代表ω所对应装配阶段内的运动控制参数；

下层策略函数的输入量为s_t，输出量为a_t，a_t代表装配过程中t时刻的装配动作包括该时刻机器人在工作空间坐标系下分别绕x，y，z轴的三个旋转运动量和三个平移运动量上层策略函数的输出量θ_ω是下层策略函数的参数；

终止函数的输入量为s_t，θ_β是终止函数的参数，终止函数的输出值为取值{0，1}的判定结果，当终止函数的输出值等于1时代表双轴孔装配当前的装配阶段结束，当终止函数的输出值等于0时代表双轴孔装配当前的装配阶段未结束；

对上层策略函数参数θ_Ω和终止函数参数θ_β分别进行初始化；

定义动作价值函数Q_U(s_t，a_t，ω|θ_Q)，代表机器人在ω所对应装配阶段内，在状态s_t时，执行动作a_t时能够收到的奖励值，并对动作价值函数的参数θ_Q进行初始化；

设定装配训练回合数l的初始值为1；

1-3)在装配训练回合l开始时，机器人将轴运动到设定的初始位置，设定每个训练回合初始位置对应的时刻t＝1，设定该回合中装配阶段序号ω的初始值为1；在第1个训练回合的t＝1时刻，获取该时刻初始位置对应的s_t并输入初始的上层策略函数π_Ω(θ_ω|s_t，ω，θ_Ω)，该函数输出参数θ_ω作为下层策略函数π_ω(a_t|s_t，θ_ω)的参数的θ_ω的初始值；

1-4)在装配训练回合l中的t时刻，获取观测环境状态s_t，将s_t输入当前终止函数β_ω(s_t，θ_β)后，对当前终止函数的输出值进行判定：

如果输出值为1，代表当前装配阶段终止，则更新ω←ω+1，然后进入步骤1-5)；

如果输出值为0，代表当前装配阶段未终止，则进入步骤1-6)，θ_ω不更新；

1-5)将s_t输入当前上层策略函数π_Ω(θ_ω|s_t，θ_Ω)，该函数输出更新后的当前下层策略函数的参数θ_ω，然后进入步骤1-6)；

1-6)将s_t输入当前下层策略函数π_ω(a_t|s_t，θ_ω)，该函数输出t时刻机器人对应动作a_t；然后令机器人执行动作a_t，机器人携带轴抵达新的位置，得到t+1时刻的环境状态的状态s_t+1；

1-7)将s_t+1输入当前奖励函数，该函数输出t+1时刻收获的奖励值r(s_t+1)，然后根据时间差分算法对当前动作价值函数Q_U(s_t，a_t，ω|θ_Q)的参数θ_Q进行更新，得到更新后的当前动作价值函数Q_U(s_t，a_t，ω|θ_Q)：