[发明专利]一种基于Actor-Critic深度强化学习的同心管机器人控制方法有效

专利信息
申请号: 202110374971.2 申请日: 2021-04-08
公开(公告)号: CN113246121B 公开(公告)日: 2022-04-08
发明(设计)人: 冯子俊;李永强;冯宇;冯远静;刘扬 申请(专利权)人: 浙江工业大学
主分类号: B25J9/16 分类号: B25J9/16;G06N3/04;G06N3/08;A61B34/30
代理公司: 杭州斯可睿专利事务所有限公司 33241 代理人: 王利强
地址: 310014 浙江省*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 actor critic 深度 强化 学习 同心 机器人 控制 方法
【权利要求书】:

1.一种基于Actor-Critic深度强化学习的同心管机器人控制方法,其特征在于,所述方法包括以下步骤:

1)利用静力学平衡法建立了同心管机器人运动学模型,并根据刚度要求和稳定性判据设置同心管的几何参数和力学参数,使系统满足刚度主宰且避免发生非线性分岔:

其中L为机器人预弯曲部分的总长度,r为任意相邻同心预弯管的曲率乘积,K为同心管的刚度,σ也是直接和机器人几何、力学参数相关的量,N为组成同心管机器人所用的镍钛管数量;

2)将同心管机器人的逆运动学描述为马尔科夫决策过程MDP,且状态设置为St={U1,...,UN,Pc,Pt},其中Ui=[uix uiy uiz]为当前时刻同心管机器人末端点的曲率向量,Pc和Pt分别为当前时刻机器人末端点和期望的笛卡尔空间位置向量;

动作则设置为相对上一时刻的旋转和伸缩输入增量:

At={Δθ1,Δφ1,…,ΔθN,ΔφN}

其中θi和φi分别为同心管的旋转和伸缩输入量,且规定旋转输入的变化量|Δθi|≤3°,伸缩输入的变化量|Δφi|≤0.2mm,在此基础上得到的实际输入量还需满足:

θi∈[-2π,2π]

φi∈[0,li]

li为第i根镍钛管的长度;

3)利用能完整描述同心管机器人在自由空间中运动状态的集合St,初始化神经网络权重,关于策略的目标函数和状态动作值函数Q(St,At),这里的θ为参数化的策略,τ为一个采样周期,r为所定义的奖励函数:

e=||Pc-Pt||2

其中e为当前回合同心管机器人末端点与期望位置的误差,λ=1mm为目标容忍度;

4)根据最终得到的神经网络模型,给出基于Actor-Critic深度强化学习的同心管机器人控制策略:在现实场景中,根据同心管末端的位姿信息和当前的驱动输入,确定下一个时刻所需的同心管状态信息:

Snext=arg max(Q(Snow,Anow))

其中,Snext为下一时刻同心管所处的状态,Snow为当前同心管的运动状态,Anow为到达当前状态所需执行的驱动输入,Q(Snow,Anow)表示由当前时刻同心管的状态和动作所决定的Q值函数,argmax(Q(Snow,Anow))指的是使Q值函数取到最大值所对应的同心管位置。

2.如权利要求1所述的一种基于Actor-Critic深度强化学习的同心管机器人控制方法,其特征在于,所述步骤3)的实现过程如下:

a)首先,初始化训练参数,奖励折扣γ=0.95,Actor和Critic的学习率分别为α=0.001和β=0.005,训练步长step=10,Actor和Critic的神经网络均为三层全连接层,且神经元个数为128-64-32;

b)根据同心管曲率-位置的状态集合St,奖励值rt+1以及下一时刻的同心管状态集合St+1,计算评估Actor执行策略好坏的TD-error,并更新Critic网络参数ω:

δt←rt+1+γQ(St+1,At+1)-Q(St,At)

w=w+βδt

c)根据同心管曲率-位置的状态集合St,动作At以及Critic返回的TD-error进行Actor网络参数的更新:

θ=θ+α▽J(θ)

d)不断进行迭代更新神经网络,直到迭代次数达到M=100000为止,可得到优化的同心管逆运动学控制方案。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110374971.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top