[发明专利]基于深度强化学习的仿生机器鱼控制方法及装置有效
申请号: | 202110110948.2 | 申请日: | 2021-01-26 |
公开(公告)号: | CN112904873B | 公开(公告)日: | 2022-08-26 |
发明(设计)人: | 李伟琨;陈浩;崔维成;宋长会;陈林柯 | 申请(专利权)人: | 西湖大学 |
主分类号: | G05D1/06 | 分类号: | G05D1/06;G06N3/04;G06N3/08 |
代理公司: | 杭州奇炬知识产权代理事务所(特殊普通合伙) 33393 | 代理人: | 贺心韬 |
地址: | 310000 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 强化 学习 仿生 机器 控制 方法 装置 | ||
1.一种基于深度强化学习的仿生机器鱼控制方法,其特征在于,包括以下步骤:
S1:通过深度学习构建外层仿生机器鱼信息网,通过与环境的交互给出初步指令;
S2:针对初步指令构建内层CPG网络,通过构建基于中枢模式发生器的运动模型给出具体关节运动指令;
所述的外层仿生机器鱼信息网包含采用协同转换方法处理后的输入信息,所述的输入信息用于生成初步指令的深度强化学习网络以及内层CPG网络传输接口;
所述的深度强化学习网络利用DQN算法构建有深度强化学习框架,将多元数据输入至所述的深度强化学习框架中,所述的深度强化学习框架通过设定目标奖励值生成输入的多元数据的对应Q值,所述的Q值生成公式如式(1)所示:
Q*(s,a)=∑pa(s,s′)(Ra(s,s′)+γmaxa′Q*(s′,a′)) (1)
其中Pa(s,s’)表示从当前状态s转移到下一状态s’的概率,R(s,s')表示当前状态下执行动作后的奖励,为γ衰减系数,maxQ*(s′,a′)表示选择当前最大的Q值操作,通过深度网络生成Q的估计值,并通过Q值和Q估计值的差距来完成深度网络的参数更新,如式(2):
L(θ)=E((R+γmaxa′(s′,a′,θ)-Q(s,a,θ))2) (2)
其中L(θ)表示损失函数,E表示取期望操作。
2.根据权利要求1所述的一种基于深度强化学习的仿生机器鱼控制方法,其特征在于:所述的协同转换方法包括将仿生机器鱼外部传感器采集的连续4帧图像与深度、距离及两种以上数据相关联并标签化,所述的协同转换方法将多元数据打包为可供深度网络直接处理的结构化数据作为后续深度强化学习网络输入。
3.根据权利要求1所述的一种基于深度强化学习的仿生机器鱼控制方法,其特征在于:所述的深度强化学习网络采用深度强化Q学习网络构建深度网络,通过所述的深度强化Q学习网络良好的处理机制以及与外部环境的良好交互能力生成仿生机器鱼运动的初步指令,所述的深度网络生成初步指令后输入内层CPG网络接口。
4.根据权利要求1所述的一种基于深度强化学习的仿生机器鱼控制方法,其特征在于:所述的内层CPG网络接口能够将所述的初步指令转化并将所述的初步指令传入内层CPG网络实现仿生机器鱼的具体关节运动,所述的仿生机器鱼的具体关节运动模型的生成式如式(3):
其中t为方向控制参数,θ为神经元间相位差,表示第i个神经元的不同相位,εi,ω表示神经元的振幅与频率,此外,Pu,Pv为扰动项,其中Pv=c2 ui+1 sinθ+ci ui+1 cosθ,Pu=c1ui-1cosθ-c2vi-1sinθ,c1,c2为神经元耦合系数,完成CPG模型构建后,将相位输出转化后输入到仿生机器鱼的各关节,如式(4):
Γi=ζivi+Θi (4)
其中Γi表示第i个关节的输入,ζi为关节对应转化系数,由对应的电机决定,Θi为上层网络生成的初步指令系数,最终通过外层深度强化学习网络与内层CPG网络协同合作完成仿生机器鱼在复杂环境中的交互与智能化高效游动控制。
5.根据权利要求1所述的一种基于深度强化学习的仿生机器鱼控制方法,其特征在于:所述的内层CPG网络接口包含初步指令的分解、标定与传输机制。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西湖大学,未经西湖大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110110948.2/1.html,转载请声明来源钻瓜专利网。