[发明专利]一种离散制造场景中的强化学习奖励自学习方法有效

申请号：	202010005909.1	申请日：	2020-01-03
公开（公告）号：	CN111241952B	公开（公告）日：	2020-11-10
发明（设计）人：	吴宗泽;赖家伦;刘亚强;梁泽逍;曾德宇	申请（专利权）人：	广东工业大学
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/62;G06N20/00
代理公司：	广州粤高专利商标代理有限公司 44102	代理人：	林丽明
地址：	510060 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种离散制造场景中的强化学习奖励自学习方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种离散制造场景中的强化学习奖励自学习方法，包括如下步骤：对当前生产线的工序细化g∈G＝{g₁,g₂,…,g_N}，智能体到达预定目标g记录为一个交互序列episode，根据初始参数获得g₁作为目标对应的多段episodes，将episodes中的状态动作以及状态的差值△作为训练数据集输入GPR模块，得到基于状态差分的系统状态转移模型；智能体Agent继续与环境进行交互，获得新的状态s_t，Reward网络输出r(s_t)，Actor网络输出a(s_t)，Critic网络输出V(s_t)，GPR模块输出值函数V_g作为整体的更新方向；当|V_g‑V(s_t)|ε时，则认为当前工序下的奖励函数学习完毕，并进行Reward网络的参数保存；继续进行交互，产生以下一个子目标g_n+1作为更新方向的episodes，用于GPR的更新；当设定目标G＝{g₁,g₂,…,g_N}全部依次实现时，完成生产线的工艺学习。

技术领域

本发明涉及深度强化学习技术领域，更具体的，涉及一种离散制造场景中的强化学习奖励学习方法。

背景技术

制造业按其产品制造工艺过程特点总体上可以划分为流程制造和离散制造。相比于流程制造，离散制造的产品往往由多个零件经过一系列并不连续的工序加工装配而成，主要包括机械加工、机床等加工、组装性行业。

针对离散型制造企业的加工生产过程。整个工艺生产过程常常分解成很多个加工任务，而每一个加工任务需要的占用的加工资源不多，但零件从一个工作环节到另一个工作环节，之间常进行不同类型和要求的多种加工任务。又因离散型企业产品定制程度高，不同的订单有不同的工艺需求，导致了其零件加工工艺及设备使用过于灵活，使其品质控制上难度高。现有的MES(Manufacturing Execution System)是对整个车间制造过程的优化，而不是单一解决某个生产工序的加工设备控制问题，因此在每一个生产单元中，按目前的主流方案，当从生产A产品切换到生产B产品时，往往需要人工切换设备的制程工艺，生产过程中包括设备使用等多数情况下还是依赖于操作者的技术、经验，但是在此之前并没有将深度强化学习引入生产线的先例。

强化学习中的奖励是Agent与环境交互后由环境返回的标量信号，奖励为Agent做出的决策提供评估性反馈，没有精心设计的奖励信号会让强化学习算法产生非常差的结果，因此设计合适的奖励一直是强化学习领域的研究热点。对于不同的应用场景，不同的控制目标，需要设计不同的奖励，常见的有如使用[-1,1]区间的标量奖励信号，有偏好的评价上一个动作对于学习目标的好坏，或者是用一个正值代表达到目标，中间过程使用一个较小的负值作为奖励反馈。奖励的设计中还存在着一种情况就是，环境能够反馈奖励信号，但是最大化累计奖励的策略并不总能达到预期目标，例如OpenAI发布的平台Universe上的游戏CoastRunners中，Agent也即是游戏中的船，目标一是完成比赛，二是收集环境中的得分目标，在训练中出现了Agent停留在一处不断的获取金币奖励，以另外一种不理想的策略获得更高的奖励。因此相同的框架，奖励函数设置的好坏，直接影响到Agent学习的结果。同时一个采用强化学习算法训练过的Agent，只能根据设计的奖励达到单次的训练目标

发明内容

本发明为了解决现有的离散制造生产线中，产品制造的各工序控制参数的调节，主要依靠工作人员的工作经验完成的问题，提供了一种离散制造场景中的强化学习奖励自学习方法，其采用深度强化学习的方法，实现生产线设备控制参数的学习。

为实现上述本发明目的，采用的技术方案如下：一种离散制造场景中的强化学习奖励自学习方法，包括如下步骤：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于广东工业大学，未经广东工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010005909.1/2.html，转载请声明来源钻瓜专利网。

上一篇：图像特征提取模型的训练方法和图像检索方法
下一篇：智能楼宇信息监控方法、装置、服务器及智能楼宇系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种离散制造场景中的强化学习奖励自学习方法有效

专利文献下载