[发明专利]强化学习系统及训练方法在审

申请号：	202110265955.X	申请日：	2021-03-11
公开（公告）号：	CN113392979A	公开（公告）日：	2021-09-14
发明（设计）人：	彭宇劭;汤凯富;张智威	申请（专利权）人：	宏达国际电子股份有限公司
主分类号：	G06N20/00	分类号：	G06N20/00
代理公司：	北京律和信知识产权代理事务所(普通合伙) 11446	代理人：	郝文博
地址：	中国台湾桃***	国省代码：	台湾;71
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	强化学习系统训练方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

一种训练方法，适用于具有一奖励函数的一强化学习系统去训练一强化学习模型，且包含：定义该奖励函数的至少一奖励条件；决定相对应于该至少一奖励条件的至少一奖励值范围；藉由超参数最佳化演算法从该至少一奖励值范围中搜寻出至少一奖励值；以及根据该至少一奖励值训练该强化学习模型。本公开内容更提供一种强化学习系统用以执行该训练方法。在没有通过实验人工决定精确数值的情况下，强化学习系统可自动地决定与多种奖励条件相对应的多个奖励值。据此，训练强化学习模型的过程或时间可以缩短。藉由自动地决定与多种奖励条件相对应的多个奖励值，经由强化学习系统训练出来的强化学习模型有很大的机会拥有高的成功率，从而能选择合适的动作。

技术领域

本公开内容系有关于一种强化学习系统及训练方法，特别是指一种用于训练强化学习模型的强化学习系统及训练方法。

背景技术

为了训练神经网路模型，当代理人满足至少一奖励条件(例如：代理人响应于特定状态执行合适的动作)，至少一奖励值就会提供给代理人。不同的奖励条件通常对应于不同的奖励值。然而，根据奖励值的不同组合训练出来的神经网路模型，会因为奖励值的多种组合(或设定)之间的细微差异而得到不同的成功率。实务上，系统设计者通常凭直觉设定奖励值，如此可能导致由此训练的神经网路模型有不佳的成功率。因此，系统设计者可能需要花上大量时间去重设奖励值以及重新训练神经网路模型。

发明内容

本公开内容的一态样为一训练方法。该训练方法适用于具有一奖励函数的一强化学习系统去训练一强化学习模型，且包含：定义该奖励函数的至少一奖励条件；决定相对应于该至少一奖励条件的至少一奖励值范围；藉由超参数最佳化演算法从该至少一奖励值范围中搜寻出至少一奖励值；以及根据该至少一奖励值训练该强化学习模型。

于一些实施例中，该至少一奖励值范围包含多个选定奖励值，且从该至少一奖励值范围中搜寻出该至少一奖励值的操作包含：从该至少一奖励值范围中选择一第一奖励值组合，其中该第一奖励值组合包含至少一个选定奖励值；根据该第一奖励值组合训练以及验证该强化学习模型，来取得一第一成功率；从该至少一奖励值范围中选择一第二奖励值组合，其中该第二奖励值组合包含至少一个选定奖励值；根据该第二奖励值组合训练以及验证该强化学习模型，来取得一第二成功率；以及比对该第一成功率与该第二成功率，以决定该至少一奖励值。

于一些实施例中，决定该至少一奖励值的操作包含：决定与成功率较高者所对应的该第一奖励值组合与该第二奖励值组合中的其中一个为该至少一奖励值。

于一些实施例中，该至少一奖励值范围包含多个选定奖励值，且从该至少一奖励值范围中搜寻出该至少一奖励值的操作包含：将基于该些选定奖励值中的每一个所产生的多个奖励值组合应用于该强化学习模型，其中每个奖励值组合均包含至少一个选定奖励值；根据该些奖励值组合训练以及验证该强化学习模型，来取得多个成功率；以及决定与成功率最高者所对应的其中一个奖励值组合为该至少一奖励值。

于一些实施例中，根据该至少一奖励值训练该强化学习模型的操作包含：根据一训练资料，藉由一互动环境提供一当前状态；响应于该当前状态，藉由该强化学习模型从多个候选动作中选择一动作；藉由一强化学习代理人执行所选的该动作，以和该互动环境进行互动；根据响应于该当前状态而执行的所选的该动作判断该至少一奖励条件是否满足，来藉由该互动环境选择性地提供该至少一奖励值；以及响应于所选的该动作，藉由该互动环境提供自该当前状态转变过来的一新状态。

本公开内容的另一态样为一训练方法。该训练方法适用于具有一奖励函数的一强化学习系统去训练一强化学习模型，其中，该强化学习模型是用以根据多个输入向量的值来选择一动作，该训练方法包含：将该些输入向量编码为多个嵌入向量；决定相对应于该些嵌入向量的多个奖励值范围；藉由超参数最佳化演算法从该些奖励值范围中搜寻出多个奖励值；以及根据该些奖励值训练该强化学习模型。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于宏达国际电子股份有限公司，未经宏达国际电子股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110265955.X/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]强化学习系统及训练方法在审

专利文献下载