[发明专利]一种基于深度强化学习的外骨骼主助力参数的优化方法有效
申请号: | 202011383180.8 | 申请日: | 2020-12-01 |
公开(公告)号: | CN112494282B | 公开(公告)日: | 2023-05-02 |
发明(设计)人: | 孙磊;陈鑫;董恩增;佟吉刚;李云飞;曾德添;龚欣翔;李成辉 | 申请(专利权)人: | 天津理工大学 |
主分类号: | A61H3/00 | 分类号: | A61H3/00;G06N3/092;G06N3/045;G06Q10/04;G16H20/30 |
代理公司: | 天津市君砚知识产权代理有限公司 12239 | 代理人: | 程昊 |
地址: | 300384 *** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 骨骼 助力 参数 优化 方法 | ||
1.一种基于深度强化学习的外骨骼主助力参数优化的方法,其特征在于它包括以下步骤:
(1)确定优化参数;
根据外骨骼助力曲线方程确定优化参数,该曲线方程为公式(1)所示复合正弦曲线形式:
式中,Fassist为实时助力大小,A为摆动相助力幅值,t*是当前时刻到助力开始时刻之间时间,Tb为当前步态周期的摆动相周期,α是为外骨骼主助力参数,作为公式(1)的波形控制参数,起改变助力峰值位置的作用,取值范围为-1≤α≤1;
(2)设定参数:
设定外骨骼穿戴者每次行走时间间隔为T=5~7s,可适当增加时间间隔,保证外骨骼穿戴者能够步行至少3步,用于获取当前步态周期的摆动相周期,而且需使外骨骼穿戴者结束每次行走时间间隔时能够平稳站立,且每次前进后外骨骼重新判断助力情况;预先设置最大情节数E、批次抽样数量N及每情节最大时间轮Tmax;
(3)设计深度确定性策略梯度方法中的标准配置,具体包括对策略网络及评价网络的设计;其中,所述策略网络包括在线策略网络μ(s|αμ)和目标策略网络μ(s|αμ');所述评价网络包括在线评价网络Q(s,a|aQ)和目标评价网络Q(s,a|αQ');
(4)从1到E对情节数e进行枚举,即对外骨骼主助力参数α进行E次收敛,每一情节开始时可获得初始时刻外骨骼的状态;
(5)获取初始状态:
当步骤(4)中的每一情节开始时,需要令外骨骼穿戴者在无助力情况下正常行走T的时间间隔,并获取其外骨骼的状态作为t=1时刻的初始时刻外骨骼的状态s1,具体包括初始时刻摆动相助力幅值A1、初始时刻外骨骼穿戴者髋关节的屈曲角度θ1、初始时刻步态周期T1、初始时刻步态周期的摆动相周期Tb1、初始时刻步态周期下髋关节的最大屈曲角θmax,1、初始时刻步态周期下髋关节的最小屈曲角θmin,1;
(6)将时间轮从1到Tmax进行枚举,在每一时间轮开始时记录t时刻,所述枚举时间轮即在每一情节数中进行Tmax次步骤(7)至步骤(13),目的是在每一情节下外骨骼执行由在线策略网络选取Tmax次外骨骼的动作,从而产生数据集用于参数训练,提高训练结果的可靠性;而且Tmax的值取的越大则枚举的次数越多从而产生的数据越多,目的是使优化的参数能够收敛;
(7)所述在线策略网络根据(6)式选择t时刻外骨骼的动作:
at=μ(st|αμ)+Noise (6)
其中,Noise是用于扩大取值范围,使得选取t时刻外骨骼的动作的范围更大;
(8)外骨骼执行步骤(7)选取的动作,外骨骼穿戴者根据外骨骼执行的动作持续一次T的时间间隔,可以得到柔性外骨骼反馈的标量化奖赏rt和下一时刻的外骨骼状态st+1;
(9)状态转换过程:
将t时刻外骨骼的状态st、步骤(7)得到的t时刻外骨骼的动作at、步骤(8)得到的t的下一时刻外骨骼的状态st+1及柔性外骨骼反馈的标量化奖赏rt,作为一个训练数据集存入经验回放池R中用于参数训练;
(10)随机采样N个步骤(9)状态转换过程作为一个批量训练数据进行参数训练;
(11)执行完步骤(7)到步骤(10)即完成一次时间轮,枚举结束,并令时间轮加1,继续执行步骤(7)到步骤(10);直到策略网络和评价网络中各个网络的参数实现收敛,令本发明基于深度强化学习方法所要优化的外骨骼主助力参数α等于策略网络中目标策略网络的目标策略网络参数αμ',策略网络中目标策略网络的目标策略网络参数αμ'收敛,即代表在此情节数下本发明基于深度强化学习方法所要优化的外骨骼主助力参数α收敛,外骨骼穿戴者的步行比稳定在设定好的健康老年人步行比,则结束当前情节数,进行下一次情节数;
(12)执行完步骤(5)到步骤(11)即完成一次情节数e,枚举结束,并令e=e+1,继续执行步骤(5)到步骤(11);直到每次情节数结束,策略网络中目标策略网络的目标策略网络参数αμ'都收敛在同一个值,即代表外骨骼主助力参数α都收敛在同一个值,则视为基于深度强化学习方法所要优化的外骨骼主助力参数α完成,可利用该外骨骼主助力参数α实现外骨骼最佳助力,使外骨骼穿戴者的步行比始终稳定在设定好的健康老年人步行比,实现外骨骼穿戴者的康复运动。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津理工大学,未经天津理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011383180.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:危废智能化配伍系统
- 下一篇:光学镜头、摄像头模组及电子装置