[发明专利]基于情境感知的策略配置方法及策略配置系统在审
申请号: | 201810718177.3 | 申请日: | 2018-07-03 |
公开(公告)号: | CN109034395A | 公开(公告)日: | 2018-12-18 |
发明(设计)人: | 张崇洁;李斯源 | 申请(专利权)人: | 清华大学 |
主分类号: | G06N99/00 | 分类号: | G06N99/00 |
代理公司: | 上海巅石知识产权代理事务所(普通合伙) 31309 | 代理人: | 张明;王再朝 |
地址: | 10008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 策略配置 情境感知 价值函数 情境信息 实时感知 学习效果 调用 学习 申请 | ||
1.一种基于情境感知的策略配置方法,其特征在于,包括以下步骤:
实施一目标任务,基于情境信息和价值函数,从一策略集中调用一策略;所述策略集包括多个策略,所述策略集中部分或全部的策略是在与一目标任务相关的其他任务中学习得到的,任一个所述策略具有一价值函数。
2.根据权利要求1所述的基于情境感知的策略配置方法,其特征在于,还包括创建或调用一策略集的步骤。
3.根据权利要求1所述的基于情境感知的策略配置方法,其特征在于,还包括更新价值函数中的价值的步骤。
4.根据权利要求3所述的基于情境感知的策略配置方法,其特征在于,所述更新价值函数中的价值的步骤包括:
在实施目标任务过程中,根据调用的一策略执行一个或多个动作而得到对应的状态;
基于所述一个或多个动作和所述状态,利用价值函数计算得到调用的策略的价值以及所述策略集中其他策略的价值函数的价值。
5.根据权利要求1所述的基于情境感知的策略配置方法,其特征在于,所述从一策略集中调用一策略的步骤包括:
当执行的当前策略的价值函数的价值为最大时,继续执行当前策略;
当执行的当前策略的价值函数的价值小于所述策略集中的其他策略时,终止当前策略,将当前策略予以返回,从所述策略集中调用价值函数的价值为最大的一策略予以执行。
6.根据权利要求1所述的基于情境感知的策略配置方法,其特征在于,还包括为每一个策略设定一终止函数且更新所述终止函数中终止值的步骤。
7.根据权利要求6所述的基于情境感知的策略配置方法,其特征在于,当执行的当前策略的价值函数的价值小于所述策略集中其他策略的价值函数的价值时,所述执行的当前策略的终止函数的终止值增加。
8.根据权利要求7所述的基于情境感知的策略配置方法,其特征在于,所述从一策略集中调用一策略的步骤包括:
当执行的当前策略的终止函数的终止值达到终止要求时,终止当前策略,将当前策略予以返回,从所述策略集中调用价值函数的价值为最大的一策略予以执行。
9.根据权利要求1所述的基于情境感知的策略配置方法,其特征在于,所述策略集包括源策略,所述源策略是在与所述目标任务相关的源任务中学习得到的;基于情境信息和价值函数,从一策略集中调用一策略的步骤包括:基于情境信息,从所述策略集中调用价值函数达到最优的一源策略。
10.根据权利要求9所述的基于情境感知的策略配置方法,其特征在于,所述策略集中部分或全部的源策略是基于所述目标任务而人为设计。
11.根据权利要求9所述的基于情境感知的策略配置方法,其特征在于,还包括如下步骤:
自所述策略集中选取部分或全部的源策略,创建策略选项集;在所述策略选项集中的每一个策略选项包括:一源策略、该源策略所适用的初始状态集和终止函数。
12.根据权利要求11所述的基于情境感知的策略配置方法,其特征在于,为所述策略集中部分或全部的源策略创建策略选项集的步骤还包括:基于一目标任务的节段或场景,从所述策略集中调用与所述节段或场景相关的部分或全部的源策略。
13.根据权利要求1所述的基于情境感知的策略配置方法,其特征在于,所述策略集包括源策略和基本策略,所述源策略是在与所述目标任务相关的源任务中学习得到的;基于情境信息和价值函数,从一策略集中调用一策略的步骤包括:基于情境信息,从所述策略集中调用价值函数达到最优的一源策略或一基本策略。
14.根据权利要求13所述的基于情境感知的策略配置方法,其特征在于,所述策略集中部分或全部的源策略是基于所述目标任务而人为设计。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810718177.3/1.html,转载请声明来源钻瓜专利网。