[发明专利]确定执行设备的动作选择方针有效

申请号：	201980028594.8	申请日：	2019-12-12
公开（公告）号：	CN112997198B	公开（公告）日：	2022-07-15
发明（设计）人：	李辉;宋乐	申请（专利权）人：	支付宝（杭州）信息技术有限公司
主分类号：	G06N20/00	分类号：	G06N20/00;A63F13/67
代理公司：	北京博思佳知识产权代理有限公司 11415	代理人：	周嗣勇
地址：	310000 浙江省杭州市***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	确定执行设备动作选择方针
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种执行设备的计算机实现的方法，用于生成动作选择方针，以在包括所述执行设备以及一个或多个其他设备的环境中完成任务，所述方法包括：

基于采样方针和探索方针计算所述执行设备在一个状态下的混合采样方针，其中，所述状态对应于多个可能动作，当所述执行设备在所述状态下时，所述多个可能动作如果被所述执行设备执行，将导致相应的下一状态，其中，所述采样方针指定对所述状态下的所述多个可能动作中的每个动作进行采样的相应采样概率，其中，所述探索方针指定与所述状态下的所述多个可能动作中的每个动作相对应的相应的探索概率，其中，所述探索概率与所述状态下的所述多个可能动作中的每个动作已被采样的次数负相关；

根据所述混合采样方针中指定的所述状态下的所述多个可能动作中的一个动作的采样概率，对所述动作进行采样；以及

通过基于所述动作执行蒙特卡罗反事实遗憾最小化MCCFR来更新所述执行设备在所述状态下的动作选择方针，其中，所述动作选择方针指定从所述状态下的所述多个可能动作中选择一个动作的相应概率，用于在所述环境中完成所述任务。

2.根据权利要求1所述的方法，还包括：响应于确定满足收敛条件而基于所述动作选择方针来控制所述执行设备的操作。

3.根据权利要求1或2所述的方法，所述方法用于在未满足收敛条件的情况下进行多次迭代执行，所述方法在任一次迭代执行的过程中还包括：

响应于根据所述混合采样方针从所述状态下的所述多个可能动作中对所述动作进行采样，

增加在所述状态下对所述动作进行采样的次数；以及

降低与所述状态下的所述多个可能动作中的所述动作相对应的探索概率，用于计算下一次迭代中的混合采样方针。

4.根据权利要求1或2所述的方法，其中，基于所述动作执行蒙特卡洛反事实后悔最小化MCCFR包括：

基于所述动作的混合采样概率，计算采样的终点动作序列的概率，所述采样的终点动作序列包括所述动作和完成任务的终点状态；

基于所述采样的终点动作序列的概率，计算所述动作的采样反事实值；

基于所述动作的所述采样反事实值，计算所述动作的遗憾值；以及

基于所述动作的所述遗憾值，更新所述执行设备在所述状态下的动作选择方针。