[发明专利]基于深度强化学习的仿生机器鱼控制方法及装置有效

申请号：	202110110948.2	申请日：	2021-01-26
公开（公告）号：	CN112904873B	公开（公告）日：	2022-08-26
发明（设计）人：	李伟琨;陈浩;崔维成;宋长会;陈林柯	申请（专利权）人：	西湖大学
主分类号：	G05D1/06	分类号：	G05D1/06;G06N3/04;G06N3/08
代理公司：	杭州奇炬知识产权代理事务所(特殊普通合伙) 33393	代理人：	贺心韬
地址：	310000 浙江省***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于深度强化学习仿生机器控制方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度强化学习的仿生机器鱼控制方法，其特征在于，包括以下步骤：

S1：通过深度学习构建外层仿生机器鱼信息网，通过与环境的交互给出初步指令；

S2：针对初步指令构建内层CPG网络，通过构建基于中枢模式发生器的运动模型给出具体关节运动指令；

所述的外层仿生机器鱼信息网包含采用协同转换方法处理后的输入信息，所述的输入信息用于生成初步指令的深度强化学习网络以及内层CPG网络传输接口；

所述的深度强化学习网络利用DQN算法构建有深度强化学习框架，将多元数据输入至所述的深度强化学习框架中，所述的深度强化学习框架通过设定目标奖励值生成输入的多元数据的对应Q值，所述的Q值生成公式如式(1)所示：

Q^*(s，a)＝∑p_a(s，s′)(R_a(s，s′)+γmax_a′Q^*(s′，a′)) (1)

其中P_a(s，s’)表示从当前状态s转移到下一状态s’的概率，R(s,s')表示当前状态下执行动作后的奖励，为γ衰减系数，maxQ^*(s′，a′)表示选择当前最大的Q值操作，通过深度网络生成Q的估计值，并通过Q值和Q估计值的差距来完成深度网络的参数更新，如式(2)：

L(θ)＝E((R+γmax_a′(s′，a′，θ)-Q(s，a，θ))²) (2)

其中L(θ)表示损失函数，E表示取期望操作。

2.根据权利要求1所述的一种基于深度强化学习的仿生机器鱼控制方法，其特征在于：所述的协同转换方法包括将仿生机器鱼外部传感器采集的连续4帧图像与深度、距离及两种以上数据相关联并标签化，所述的协同转换方法将多元数据打包为可供深度网络直接处理的结构化数据作为后续深度强化学习网络输入。

3.根据权利要求1所述的一种基于深度强化学习的仿生机器鱼控制方法，其特征在于：所述的深度强化学习网络采用深度强化Q学习网络构建深度网络，通过所述的深度强化Q学习网络良好的处理机制以及与外部环境的良好交互能力生成仿生机器鱼运动的初步指令，所述的深度网络生成初步指令后输入内层CPG网络接口。

4.根据权利要求1所述的一种基于深度强化学习的仿生机器鱼控制方法，其特征在于：所述的内层CPG网络接口能够将所述的初步指令转化并将所述的初步指令传入内层CPG网络实现仿生机器鱼的具体关节运动，所述的仿生机器鱼的具体关节运动模型的生成式如式(3)：

其中t为方向控制参数，θ为神经元间相位差，表示第i个神经元的不同相位，ε_i，ω表示神经元的振幅与频率，此外，P_u，P_v为扰动项，其中P_v＝c₂ u_i+1 sinθ+c_i u_i+1 cosθ，P_u＝c₁u_i-1cosθ-c₂v_i-1sinθ，c₁，c₂为神经元耦合系数，完成CPG模型构建后，将相位输出转化后输入到仿生机器鱼的各关节，如式(4)：

Γ_i＝ζ_iv_i+Θ_i (4)

其中Γ_i表示第i个关节的输入，ζ_i为关节对应转化系数，由对应的电机决定，Θ_i为上层网络生成的初步指令系数，最终通过外层深度强化学习网络与内层CPG网络协同合作完成仿生机器鱼在复杂环境中的交互与智能化高效游动控制。

5.根据权利要求1所述的一种基于深度强化学习的仿生机器鱼控制方法，其特征在于：所述的内层CPG网络接口包含初步指令的分解、标定与传输机制。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西湖大学，未经西湖大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110110948.2/1.html，转载请声明来源钻瓜专利网。

上一篇：一种便于安装的双色警示围网及其制作方法
下一篇：一种具有防霉抗菌性能的高韧性橡胶材料及其制备方法

同类专利

专利分类

G 物理

G05 控制；调节
G05D 非电变量的控制或调节系统
G05D1-00 陆地、水上、空中或太空中的运载工具的位置、航道、高度或姿态的控制，例如自动驾驶仪
G05D1-02 .二维的位置或航道控制
G05D1-04 .高度或深度的控制
G05D1-08 .姿态的控制，即摇摆、俯仰角或偏航角的控制
G05D1-10 .三维的位置或航道的同时控制
G05D1-12 .寻找目标的控制

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于深度强化学习的仿生机器鱼控制方法及装置有效

专利文献下载