[发明专利]降低执行机器学习任务的计算成本的方法和系统在审
申请号: | 201910410996.6 | 申请日: | 2019-05-17 |
公开(公告)号: | CN110737528A | 公开(公告)日: | 2020-01-31 |
发明(设计)人: | 森村哲郎;奥户道子;胜木孝行 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F9/50 | 分类号: | G06F9/50;G06N20/00 |
代理公司: | 11247 北京市中咨律师事务所 | 代理人: | 于静;杨晓光 |
地址: | 美国*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 给定状态 机器学习 分区 状态分区 马尔可夫决策过程 状态转移矩阵 计算机实现 合并条件 可观察 关联 合并 | ||
1.一种用于降低执行机器学习任务的计算成本的计算机实现的方法,包括:
由在操作上耦合到存储器的至少一个处理器设备生成对应于多个状态的一个或多个状态分区候选者,所述多个状态与部分可观察马尔可夫决策过程POMDP模型相关联;
由所述至少一个处理器设备基于用于所述一个或多个状态分区候选者中的给定状态分区候选者的状态转移矩阵来确定所述给定状态分区候选者满足合并条件;以及
由所述至少一个处理器设备使用所述给定状态分区候选者并基于具有合并状态的所述POMDP模型来执行机器学习任务。
2.根据权利要求1所述的方法,其中,所述参数包括发射分布和回报分布,其中,所述多个组中的给定组的一个或多个状态具有所述发射分布和所述回报分布的类似后验分布。
3.根据权利要求1所述的方法,其中,所述样本通过采用马尔可夫链蒙特卡罗MCMC法来获得。
4.根据权利要求1所述的方法,进一步包括:
由所述至少一个处理器设备从与部分可观察马尔可夫决策过程POMDP模型相关联的参数的后验分布中获得样本;
由所述至少一个处理器设备基于所获得的样本,将所述多个状态分组成多个组,所述多个组中的每个组包括具有所述参数的类似后验分布的所述多个状态中的一个或多个状态;
由所述至少一个处理器设备创建多个分区集合,每个分区集合对应于所述多个组中的相应组,并且每个分区集合包括一个或多个分区;以及
由所述至少一个处理器设备组合所述分区集合以生成所述一个或多个状态分区候选者。
5.根据权利要求1所述的方法,其中,所述一个或多个状态分区候选者均包括多个子组。
6.根据权利要求5所述的方法,进一步包括:由所述至少一个处理器设备基于与每个状态分区候选者对应的子组数量,枚举所述一个或多个状态分区候选者。
7.根据权利要求6所述的方法,其中,按照与每个状态分区候选者对应的所述子组数量的升序,枚举所述一个或多个状态分区候选者。
8.根据权利要求5所述的方法,进一步包括:由所述至少一个处理器设备通过计算转移成所述给定状态分区候选者的所有所述状态的概率的总和,生成用于所述给定状态分区候选者的所述状态转移矩阵。
9.根据权利要求8所述的方法,其中,确定所述给定状态分区候选者是否满足所述合并条件包括:确定所述参数的所述后验分布对于所述给定状态分区候选者的每个所述子组中的所有动作和状态是否相同。
10.根据权利要求9所述的方法,其中,通过使用柯尔莫可洛夫-斯米洛夫测试或将样本均值与阈值进行比较,确定所述给定状态分区候选者满足所述合并条件。
11.一种用于使用部分可观察马尔可夫决策过程POMDP模型来降低机器学习任务的计算成本的系统,所述系统包括:
存储设备,用于存储程序指令;以及
至少一个处理器设备,在操作上耦合到所述存储设备并被配置为执行存储在所述存储设备上的程序代码以实现根据权利要求1至10中任一项所述的方法中的步骤。
12.一种计算机程序产品,包括具有随其包含的程序指令的非瞬时性计算机可读存储介质,所述程序指令能够由计算机执行以使得所述计算机执行用于降低执行机器学习任务的计算成本的方法,由所述计算机执行的所述方法包括根据权利要求1至10中任一项所述的方法中的步骤。
13.一种用于使用部分可观察马尔可夫决策过程POMDP模型来降低机器学习任务的计算成本的系统,所述系统包括用于实现根据权利要求1至10中任一项所述的方法中的步骤的装置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910410996.6/1.html,转载请声明来源钻瓜专利网。