[发明专利]基于强化学习的蛇形急救机器人结构参数快速设计方法有效
申请号: | 202110676186.2 | 申请日: | 2021-06-18 |
公开(公告)号: | CN113268933B | 公开(公告)日: | 2022-02-15 |
发明(设计)人: | 李特;刘海波;刘行健;崔文博;庹桂本;陈一同;王永青 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06F30/27 | 分类号: | G06F30/27;G06N3/08 |
代理公司: | 大连理工大学专利中心 21200 | 代理人: | 关慧贞 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 强化 学习 蛇形 急救 机器人 结构 参数 快速 设计 方法 | ||
1.一种基于强化学习的蛇形急救机器人结构参数快速设计方法,其特征是,该方法先构建蛇形急救机器人参数多目标规划模型;然后针对机器人结构参数多目标规划问题进行马尔可夫建模,根据规划问题分别建立状态空间、动作空间与奖励函数;接着构建强化学习架构;最后对所构建的强化学习网络进行训练,实现蛇形急救机器人快速设计任务;方法的具体步骤如下:
步骤1:构建机器人参数多目标规划模型;
将蛇形急救机器人结构参数化,确定需要设计的变量为驱动模块长度l1,核心模块长度l2,机器人高度h,翻越台阶、沟壑过程中机器人核心模块与水平面夹角θ这四个参数;
针对翻越台阶任务过程中的越障关键阶段,建立障碍与所定义设计变量之间的关系式;该关系式定义为:
其中,Hmax表示理论上在当前结构参数下机器人所能翻越的最大台阶高度,xG表示后驱动模块与地面呈垂直状态时机器人整体质心与后驱动模块中心线的水平距离,mG1表示机器人驱动模块质量,mG2为核心模块质量,mG为机器人总体质量;
针对跨越沟壑任务过程中的越障关键阶段,建立障碍与所定义设计变量之间的关系式;该关系式定义为:
结合机器人轻量化、便携性要求,定义蛇形急救机器人质量约束条件:
min{mG=2mG1+mG2} (4)
步骤2:针对机器人结构参数多目标规划问题进行马尔可夫建模;
针对机器人结构参数多目标规划问题,智能体需要不断尝试各组结构参数,通过观察当前状态与奖励,训练神经网络,不断向能获得最大期望奖励值的策略方向进行优化;
在t时刻状态S被定义为:S(t)=[dH,dS,ms],(5)
其中,各参数被定义为:
dH=Hmax-Htarget (6)
dS=Smax-Starget (7)
ms=2mG1+mG2 (8)
其中,dH是爬坡能力指标项、dS是翻越沟壑能力指标项,Smax表示理论上当前机器人所能跨越的最大沟壑宽度,Htarget代表机器人翻越台阶的任务需求高度,Starget代表机器人跨越沟壑的任务需求长度;
在t时刻动作A被定义为:a(t)=[Δl1,Δl2,Δh,Δθ],(9)
该动作空间各项参数范围被定义为:Δl1∈(-5mm,5mm);Δl2∈(-5mm,5mm);Δh∈(-1mm,1mm);Δθ∈(-1°,1°);
其中,Δl1表示在一个时间步内驱动模块长度l1的改变量,Δl2表示在一个时间步内核心模块长度l2的改变量,Δh表示在一个时间步内机器人高度h的改变量,Δθ表示在一个时间步内核心模块与水平面夹角θ的改变量;
在t时刻奖励r被定义为:
rm=2mG1+mG2 (12)
其中,wm、wh、ws分别是质量惩罚项rm、爬坡能力指标项dH、翻越沟壑能力指标项dS的标准化系数;
步骤3:构建强化学习架构;
选用Soft-Actor-Critic算法为基础框架;在蛇形急救机器人结构参数快速设计任务中SAC算法训练参数设置如下:隐藏层层数为2层;隐藏层神经元数量为256;学习率为0.0001;经验池容量为500000;温度系数设置为自动调节;
温度系数学习率为0.0001;
经上述内容构建强化学习网络,智能体在结构参数设计任务过程中,利用贝尔曼方程计算预期评估值Qsoft(st,at):
其中,Qsoft(st,at)表示智能体在t时刻st状态下采取动作at时的预期评估值,Qsoft(st+1,at+1)表示智能体在t时刻st+1状态下采取动作at+1时的预期评估值,α为温度系数,logπ(st+1,at+1)为熵正则项;
根据公式(7)构建Q值网络更新方程:
构建策略网络更新方程:
其中πφ(·|st)代表当前的策略分布,Qθ(st,·)表示当前根据采样估计到的Q值分布,Z(st)是派分函数,作用是令Q值分布标准化;
构建温度系数更新方程:
构建目标网络更新方程:
步骤4:对强化学习网络进行训练
所设计的强化学习网络训练过程如下:
A.初始化折扣因子、学习率,并对神经网络进行初始化,其中权值采用随机初始化,偏置项采用常值初始化;
B.初始化初始状态,在取值范围内分别对翻越台阶的任务需求高度Htarget、跨越沟壑的任务需求长度Starget、驱动模块长度l1,核心模块长度l2、机器人高度h、在跨越台阶任务临界状态时核心模块与水平面夹角θ进行随机取值;
C.将当前状态st输入进神经网络进行分析,输出设计动作at;
D.机器人更新结构参数并从预设奖励函数中得到奖励反馈rt以及当前状态st+1;
E.将当前时间步内采集的样本{st,at,rt,st+1}存储进经验池;
F.更新网络参数
G.判断本轮学习过程是否完结,否则跳转回B;
经训练后,收敛后的强化学习算法能够针对不同的翻越阶梯高度与跨越沟壑宽度这两个任务指标,在短时间内快速设计出一组能够满足任务指标,并保证机器人质量轻量化的机器人参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110676186.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种电子元器件缺陷检测设备及检测方法
- 下一篇:一种永磁同步电机转子及电机