[发明专利]一种基于深度强化学习的Web服务组合方法有效
申请号: | 201710295158.X | 申请日: | 2017-04-28 |
公开(公告)号: | CN107241213B | 公开(公告)日: | 2020-05-05 |
发明(设计)人: | 王红兵;顾明珠 | 申请(专利权)人: | 东南大学 |
主分类号: | H04L12/24 | 分类号: | H04L12/24;H04L29/08;G06N3/08 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 梁耀文 |
地址: | 211189 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于深度强化学习的Web服务组合方法,针对传统服务组合方法在面对大规模服务场景下耗时长、灵活性差、组合结果不理想等问题,将深度强化学习技术和启发式思想应用于服务组合问题。此外考虑到真实环境的部分可观察性的特点,本发明将服务组合过程转化为一个部分可观察马尔可夫决策过程(Partially‑Observable Markov Decision Process,POMDP),利用循环神经网络解决POMDP的求解问题,使方法在面对“维度灾难”挑战时仍能表现出高效性。本发明方法能够有效的提高求解的速度,保证服务组合方案的质量的基础上,自主地适应动态性服务组合环境,在大规模动态性服务组合场景下有效的提高了服务组合的效率自适应性和灵活性。 | ||
搜索关键词: | 一种 基于 深度 强化 学习 web 服务 组合 方法 | ||
【主权项】:
一种基于深度强化学习的Web服务组合方法,其特征在于,包括如下步骤:1)获取用户需求,构建当前任务下的部分可观察马尔可夫决策过程服务组合模型;2)初始化系统参数以及网络结构,并将模型的开始状态作为系统当前状态;3)当迭代次数m小于k次,随机选择动作直接进入步骤5,否则进入步骤4;4)采用启发式行为选择策略选择一个行为,判断当前状态是否属于隐藏状态集,如果属于隐藏状态集则判定当前状态为隐藏状态,并通过循环神经网络LSTM模拟的策略空间选择最大概率的动作;如果不属于隐藏状态集则判断当前状态为完全可见状态并通过查询Q值表选择最优的动作;5)采用ε‑greedy策略选择最终执行动作,并与环境交互得到反馈;6)对于历史信息进行存储,并更新循环神经网络或者Q值表,利用熵计算当前状态是否为隐藏状态,如果判断结果是隐藏状态则加入隐藏状态集合,如果判断结果不是隐藏状态则加入完全可见状态集合,最后进入下一步;7)系统当前状态设置为下一个状态,对当前状态是否为终止状态进行判断,如果是终止状态则进入步骤8,如果不是终止状态则返回步骤3;8)观察神经网络的收敛情况以及Q值表中长期得益矩阵所有值的变化幅度,使得神经网络收敛以及所有值的变化幅度小于阈值,采用贪心原则,选取一条从开始状态到终止状态的组合路径,依照模型的映射关系,生成Web服务组合工作流,将服务组合结果反馈给用户。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710295158.X/,转载请声明来源钻瓜专利网。
- 上一篇:一种用于果树种植的缓释肥及其制备方法
- 下一篇:一种甲烷的提纯方法