[发明专利]一种基于Actor-Critic深度强化学习的同心管机器人控制方法有效
申请号: | 202110374971.2 | 申请日: | 2021-04-08 |
公开(公告)号: | CN113246121B | 公开(公告)日: | 2022-04-08 |
发明(设计)人: | 冯子俊;李永强;冯宇;冯远静;刘扬 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | B25J9/16 | 分类号: | B25J9/16;G06N3/04;G06N3/08;A61B34/30 |
代理公司: | 杭州斯可睿专利事务所有限公司 33241 | 代理人: | 王利强 |
地址: | 310014 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 actor critic 深度 强化 学习 同心 机器人 控制 方法 | ||
1.一种基于Actor-Critic深度强化学习的同心管机器人控制方法,其特征在于,所述方法包括以下步骤:
1)利用静力学平衡法建立了同心管机器人运动学模型,并根据刚度要求和稳定性判据设置同心管的几何参数和力学参数,使系统满足刚度主宰且避免发生非线性分岔:
其中L为机器人预弯曲部分的总长度,r为任意相邻同心预弯管的曲率乘积,K为同心管的刚度,σ也是直接和机器人几何、力学参数相关的量,N为组成同心管机器人所用的镍钛管数量;
2)将同心管机器人的逆运动学描述为马尔科夫决策过程MDP,且状态设置为St={U1,...,UN,Pc,Pt},其中Ui=[uix uiy uiz]为当前时刻同心管机器人末端点的曲率向量,Pc和Pt分别为当前时刻机器人末端点和期望的笛卡尔空间位置向量;
动作则设置为相对上一时刻的旋转和伸缩输入增量:
At={Δθ1,Δφ1,…,ΔθN,ΔφN}
其中θi和φi分别为同心管的旋转和伸缩输入量,且规定旋转输入的变化量|Δθi|≤3°,伸缩输入的变化量|Δφi|≤0.2mm,在此基础上得到的实际输入量还需满足:
θi∈[-2π,2π]
φi∈[0,li]
li为第i根镍钛管的长度;
3)利用能完整描述同心管机器人在自由空间中运动状态的集合St,初始化神经网络权重,关于策略的目标函数和状态动作值函数Q(St,At),这里的θ为参数化的策略,τ为一个采样周期,r为所定义的奖励函数:
e=||Pc-Pt||2
其中e为当前回合同心管机器人末端点与期望位置的误差,λ=1mm为目标容忍度;
4)根据最终得到的神经网络模型,给出基于Actor-Critic深度强化学习的同心管机器人控制策略:在现实场景中,根据同心管末端的位姿信息和当前的驱动输入,确定下一个时刻所需的同心管状态信息:
Snext=arg max(Q(Snow,Anow))
其中,Snext为下一时刻同心管所处的状态,Snow为当前同心管的运动状态,Anow为到达当前状态所需执行的驱动输入,Q(Snow,Anow)表示由当前时刻同心管的状态和动作所决定的Q值函数,argmax(Q(Snow,Anow))指的是使Q值函数取到最大值所对应的同心管位置。
2.如权利要求1所述的一种基于Actor-Critic深度强化学习的同心管机器人控制方法,其特征在于,所述步骤3)的实现过程如下:
a)首先,初始化训练参数,奖励折扣γ=0.95,Actor和Critic的学习率分别为α=0.001和β=0.005,训练步长step=10,Actor和Critic的神经网络均为三层全连接层,且神经元个数为128-64-32;
b)根据同心管曲率-位置的状态集合St,奖励值rt+1以及下一时刻的同心管状态集合St+1,计算评估Actor执行策略好坏的TD-error,并更新Critic网络参数ω:
δt←rt+1+γQ(St+1,At+1)-Q(St,At)
w=w+βδt
c)根据同心管曲率-位置的状态集合St,动作At以及Critic返回的TD-error进行Actor网络参数的更新:
θ=θ+α▽J(θ)
d)不断进行迭代更新神经网络,直到迭代次数达到M=100000为止,可得到优化的同心管逆运动学控制方案。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110374971.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种西瓜酮的制备方法
- 下一篇:一种3D打印合金金属塑性变形惯性开关