[发明专利]基于情境感知的策略配置方法及策略配置系统在审

申请号：	201810718177.3	申请日：	2018-07-03
公开（公告）号：	CN109034395A	公开（公告）日：	2018-12-18
发明（设计）人：	张崇洁;李斯源	申请（专利权）人：	清华大学
主分类号：	G06N99/00	分类号：	G06N99/00
代理公司：	上海巅石知识产权代理事务所(普通合伙) 31309	代理人：	张明;王再朝
地址：	10008***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	策略配置情境感知价值函数情境信息实时感知学习效果调用学习申请
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开一种基于情境感知的策略配置方法及策略配置系统，其中，所述策略配置方法包括：当实施一目标任务时，实时感知目标任务的情境，并根据相应的情境信息和策略所属的价值函数，从一策略集中调用最优的策略，其中，所述策略集包括多个策略，所述策略集中部分或全部的策略是在与一目标任务相关的其他任务中学习得到的。如此，不仅可大大加快新的目标任务的学习，更可实现目标任务整体上的最佳学习效果。

技术领域

本申请涉及一种基于情境感知的策略配置方法及策略配置系统。

背景技术

近来，迁移学习已经得到的广泛的关注和研究。迁移学习是一种运用已知存在的知识对不同但相关领域问题进行求解的新的机器学习方法。迁移学习主要针对从资源较丰富的源领域和目标领域获取知识训练相关模型，进而解决资源相对缺乏的目标领域的问题，即迁移已有的知识来解决目标领域中仅有少量有标签样本数据甚至没有的学习问题。因此，迁移学习被认为是一种能够解决数据分布不一致所造成模型性能下降的有效学习策略，这一方法在目前的自然语言处理、语音识别、图像识别、视频分析等领域有着广泛的应用。

不过，在现有的迁移学习中，主要的工作是聚焦于针对某一任务从众多习得的策略中去找到最优的或相似度最高的单一策略用来实施迁移，例如通过测量马尔科夫决策过程(Markov Decision Processes，MDP)的相似度或者应用多臂赌博机(multi-armedbandit)方法进行在线探索。这种单一策略迁移的学习方式限制了迁移学习的表现，因为更多的时候，针对某一任务，并非该任务下的所有节段或场景对于所选定的那一个策略而言都是最优的，而且，其他多种不同的策略对于该任务也很可能是有用的。

发明内容

鉴于以上相关技术的缺失，本申请的目的在于公开一种基于情境感知的策略配置方法及配置系统，用于解决相关技术中迁移学习多是采用单一策略而导致的学习效果欠佳等问题。

为实现上述目的及其他目的，本申请的第一方面公开一种基于情境感知的策略配置方法，包括以下步骤：实施一目标任务，基于情境信息和价值函数，从一策略集中调用一策略；所述策略集包括多个策略，所述策略集中部分或全部的策略是在与一目标任务相关的其他任务中学习得到的，任一个所述策略具有一价值函数。

本申请的第二方面公开一种基于情境感知的策略配置系统，包括：策略决定模块，用于基于情境信息和价值函数，从一策略集中调用一策略；所述策略集中部分或全部的策略是在与一目标任务相关的其他任务中学习得到的，任一个所述策略具有一价值函数；策略执行模块，用于执行所述策略决定模块调用的一策略。

本申请的第三方面公开一种计算机可读存储介质，存储有基于情境感知配置策略的计算机程序，所述计算机程序被执行时，实现如前所述基于情境感知的策略配置方法中的各个步骤。

本申请的第四方面公开一种数据处理设备，包括：至少一个存储器；至少一个处理器；至少一个程序，其中，所述至少一个程序被存储在所述至少一个存储器中并被配置为由所述至少一个处理器执行指令，所述至少一个处理器执行所述执行指令使得所述数据处理设备执行如前所述基于情境感知的策略配置方法中的各个步骤。

如上所述，本申请的基于情境感知的策略配置方法及策略配置系统，具有以下有益效果：提供一策略集，所述策略集中包括自相关任务中习得的多个策略，当实施一目标任务时，实时感知目标任务的情境，并根据相应的情境信息和策略所属的价值函数，从一策略集中调用最优或最相似的策略。如此，在实施一目标任务时，在目标任务的不同情境下，可从策略集中调用与当前情境相适用的最优或最相似的一策略，充分利用了策略集中各个策略的知识，不仅可大大加快新的目标任务的学习，更可实现目标任务整体上的最佳学习效果。

附图说明

图1显示为本申请基于情境感知的策略配置方法在一实施例中的流程示意图。

图2显示为图1中步骤S13的细化流程图。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于清华大学，未经清华大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810718177.3/2.html，转载请声明来源钻瓜专利网。

上一篇：一种机器学习模型的更新方法和装置
下一篇：用于处理分布式集群中的深度学习作业的方法和装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N99-00 本小类其他各组中不包括的技术主题

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于情境感知的策略配置方法及策略配置系统在审

专利文献下载