[发明专利]一种改进群机器人进化能力的异质同质群体协同进化方法有效
申请号: | 202110860701.2 | 申请日: | 2021-07-29 |
公开(公告)号: | CN113485119B | 公开(公告)日: | 2022-05-10 |
发明(设计)人: | 朱晓敏;吴梦;包卫东;马力;王吉;欧阳佶;陶晶晶;张亮 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G05B13/04 | 分类号: | G05B13/04 |
代理公司: | 北京风雅颂专利代理有限公司 11403 | 代理人: | 曾志鹏 |
地址: | 410003 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 改进 机器人 进化 能力 同质 群体 协同 方法 | ||
1.一种改进群机器人进化能力的异质同质群体协同进化方法,其特征是,群机器人中的每个个体交替处于异质阶段和同质阶段,在异质阶段,群机器人中的每个个体选择不同的策略,其策略组是,n为群机器人总数,通过群机器人与环境的相互作用,分别对每个个体选择的策略进行评价,得到异质阶段的高适应度策略;在同质阶段,群机器人将评估在异质阶段得到的高适应度策略,群机器人中的每个个体选择相同的策略,其策略组是,随着迭代次数的增加,从1变化到,其中是在异质阶段保留的高适应度策略的数量,也是同质阶段的迭代数,通过群机器人与环境的相互作用,对群机器人的策略进行评价,获得准确的策略评价,准确评价的策略组作为下一个异质阶段的输入,引导新一轮的异质-同质协同进化过程。
2.如权利要求1所述的异质同质群体协同进化方法,其特征是,群体中所有机器人都处于任务环境中,并且通过与环境的交互获取奖励,奖励值包含群体评价和个体评价,每个机器人的当前策略和奖励值会综合存入记忆池,同时,相邻的机器人与环境交互获取奖励值,相邻的机器人的策略与奖励值通过通信交互,存入机器人本地的记忆池,不同的阶段,策略和奖励值被储存在不同的记忆池中,新策略以不同的方式进化,在异质阶段,策略和奖励值被存储在异质记忆池中,异质记忆池同时被用来支持新策略的产生,在同质阶段,将异质阶段保留的高适应度策略添加到同质记忆池中并进行评价,在同质阶段结束时,这些策略及其评价被返回到异质记忆池中,作为新的异质进化的基础,新策略与环境相互作用产生的新评价一并进入下一个迭代。
3.如权利要求2所述的异质同质群体协同进化方法,其特征是策略评价的函数包括适应度函数和奖励值函数,适应度函数用于在一轮任务执行完成后,综合群体指标和个体指标,对策略给出综合评价,奖励值函数在任务执行过程中实时计算,用于对个体的单步动作做出评价,奖励作为强化学习的重要组成部分,引导整个训练过程或进化过程,通过与环境交互获得的奖励值反馈,用以辅助对策略的评价,从而准确引导进化的方向,群体在任务执行过程中能够获取从各个方面评价群体策略优劣的属性指标,属性指标分为个体属性和群体属性。
4.如权利要求3所述的异质同质群体协同进化方法,其特征是,记忆池具有增加记忆的机制和删除记忆的机制,当获取到新的策略-策略适应度对时,首先,判断该策略是否已存储在记忆池中,如果已存在,评价值替换为新旧评价值的平均;如果不存在,则作为新的记忆添加进记忆池中,在一轮任务执行结束后,将对个体本地记忆池中的记忆按照评价值大小降序排列,指定最大存储容量,并按顺序保留不超过最大存储容量的记忆。
5.如权利要求1所述的异质同质群体协同进化方法,其特征是,还包括使用行为表达式树作为机器人的策略控制结构,行为表达式树是一种使用树形结构来对机器人的行为结构进行层次化结构化表达的方法,行为表达式树由节点和连线构成,其中节点包括叶子节点和中间节点,叶子节点为机器人可以执行的动作或输入到函数的参数,中间节点为组合这些动作的函数,函数节点的子节点数目被设置为3,从根节点出发,通过树的递归结构遍历树的所有节点,能得到机器人的最终执行的结果动作。
6.如权利要求5所述的异质同质群体协同进化方法,其特征是,行为表达式树与行为表达式之间的转换是通过编码、解码实现的,编码时,行为表达式树按照层级顺序编码,行为表达式树的第一层只有一个根节点,该节点被编码为行为表达式的第一个符号,后续依次按照广度优先的算法,遍历行为树,节点遍历的顺序为行为表达式的符号排序,解码时,依据行为表达式树的结构,依次填充表达式,将行为表达式解码为行为表达式树。
7.如权利要求6所述的异质同质群体协同进化方法,其特征是,在群机器人策略进化时,个体将结合记忆池中获取到的策略信息,选出适应度最高的策略作为基本策略,进行进化操作产生新的策略,策略用行为表达式来表达,行为表达式的进化操作包含复制、单点突变、两点突变、单点插入、片段插入、单点重组和片段重组,其中,单点突变和两点突变仅发生在单个行为表达式上,不需要选择记忆池中的行为表达式辅助进化过程,插入和重组操作需要在机器人个体的记忆池中选择辅助进化操作的行为表达式,辅助产生新的行为表达式。
8.如权利要求7所述的异质同质群体协同进化方法,其特征是,进化操作产生新策略的行为表达式应当满足:,其中,是策略头部的长度,是头部的最大长度,头部的长度选定后,尾部的最小长度是和的函数,,是所需变量数最多的函数的参数个数,如果行为表达式的头部长度不满足不等式头部将被从的位置截断,多余的部分被丢弃,如果行为表达式的尾部长度不满足不等式th*(k-1)+1,行为表达式将被用随机生成的行为表达式片段补充,使得其满足长度需求。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110860701.2/1.html,转载请声明来源钻瓜专利网。