[发明专利]一种基于启发式搜索的多智能体认知规划算法在审
申请号: | 201810291432.0 | 申请日: | 2018-03-30 |
公开(公告)号: | CN108647787A | 公开(公告)日: | 2018-10-12 |
发明(设计)人: | 刘咏梅;吴钟彬 | 申请(专利权)人: | 中山大学 |
主分类号: | G06N5/02 | 分类号: | G06N5/02;G06N5/04 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林瑞云 |
地址: | 510220 *** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 多智能体 认知 规划算法 算法 启发式搜索 规划问题 析取 嵌套 状态空间搜索 交替覆盖 深度受限 搜索过程 规划器 环检测 启发式 拓展性 高阶 拓展 | ||
1.一种基于启发式搜索的多智能体认知规划算法,其特征在于,所述算法提出了一种多智能体认知规划问题的、基于交替覆盖析取范式ACDF公式之间距离的启发式函数的定义,并使用基于AO*和环检测的CAO*算法作为规划器的主要规划算法。
2.根据权利要求1所述基于启发式搜索的多智能体认知规划算法,其特征在于,所述算法包括以下步骤:
S1.初始化:初始化策略π,包括π(I)=Undef;
S2.判断初始状态I是否蕴含目标G,若蕴含返回空动作树T,算法结束;否则进入下一步骤;
S3.从当前策略π中挑选未被拓展的状态s,即π(s)=Undef;
S4.拓展步骤S3中得到的状态s,设有感知动作集合S和确定性动作集合D,遍历感知动作集合S,若状态s能蕴含感知动作的前置条件,则根据感知动作结果对状态s进行演进得到状态s′,并将s′加入新状态集合S′;遍历确定性动作集合D,若状态s能蕴含确定性动作的前置条件,则根据确定性动作结果对状态s进行演进得到状态s″,并将s″加入新状态集合S′;
S5.对得到的新状态集合S′中的所有状态s′,作新状态启发式代价值的计算,得新状态f(s);
S6.将新状态加入策略π中,并赋予对应动作;
S7.对新状态代价值作后向迭代更新;
S8.根据更新完的状态代价值生成新策略π′;
S9.对比策略π与新策略π′,如果π和π′不完全一致,则π=π′,返回步骤7,否则进入下一步骤;
S10.判断问题是否解决,如果问题已解决,进入下一步骤,否则返回步骤3;
S11.从策略π中提取出动作树T并返回,算法结束。
其中,初始状态为I,目标为G,约束为γ,感知动作集合为S,确定性动作集合为D,动作树为T。
3.根据权利要求2所述基于启发式搜索的多智能体认知规划算法,其特征在于,所述S5中对新状态集合S′中的状态s′,作新状态启发式代价值的计算时,若s′能蕴含目标G,则f(s′)=0;否则f(s′)=h(s′)。
4.根据权利要求2所述基于启发式搜索的多智能体认知规划算法,其特征在于,所述S6中将新状态加入策略π中并赋予对应动作时,对于新状态集合S′中的状态s′,若s′能蕴含目标G,则π(s′)=Ter;否则π(s′)=Undef;同时令π(s)等于任意在状态s下能执行的感知动作或确定性动作,其中s是S3中所挑选的状态。
5.根据权利要求2所述基于启发式搜索的多智能体认知规划算法,其特征在于,所述S7中对新状态代价值作后向迭代更新得下式:
其中,如果π(s)∈D,则prog(π(s),s)表示在状态s下执行动作π(s)后得到的状态;如果π(s)∈S,则prog(π(s),s)表示在状态s下执行动作π(s)后得到的状态二元组<φ+,φ->,分别表示动作的正结果和负结果。
6.根据权利要求2所述基于启发式搜索的多智能体认知规划算法,其特征在于,所述S8中生成新的策略π′的方法如下式:
其中,A={a|a∈S∪D,s能蕴含动作a的前置条件}。
如果a∈D,Cost(a)=1+f(prog(a,s));
否则a∈S,Cost(a)=2+0.5*f(φ+)+0.5*f(φ-);
另外,在生成新策略π′过程中,需要不断进行环检测操作,以保证π′不带环,从而保证算法最终能终止。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810291432.0/1.html,转载请声明来源钻瓜专利网。