[发明专利]资源的分配处理方法、装置、设备及存储介质有效
申请号: | 201811321302.3 | 申请日: | 2018-11-07 |
公开(公告)号: | CN109445947B | 公开(公告)日: | 2020-11-06 |
发明(设计)人: | 孙木鑫 | 申请(专利权)人: | 东软集团股份有限公司 |
主分类号: | G06F9/50 | 分类号: | G06F9/50 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 张子青;刘芳 |
地址: | 110179 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 资源 分配 处理 方法 装置 设备 存储 介质 | ||
本申请提供一种资源的分配处理方法、装置、设备及存储介质,该方法包括:获取当前资源状态及预设决策集合中各决策当前被采用次数;基于所述当前资源状态及所述预设决策集合中各决策当前被采用次数,采用预设决策选择规则确定目标资源分配决策;根据所述目标资源分配决策进行资源的分配处理。通过在进行决策的预设决策选择规则中增加了决策当前被采用次数的环境奖励函数影响因素,使得没有被采用的决策的奖励值较大,在循环过程中可以跳出局部的决策路径循环,重新探索新的路径,可以有效避免陷入局部最优,从而有效减少资源浪费。
技术领域
本申请涉及云计算技术领域,尤其涉及一种资源的分配处理方法、装置、设备及存储介质。
背景技术
随着云技术的兴起,各企业云服务的发展模式逐渐完善,云服务被运用到各种不同的应用场景。
面对企业云服务业务跨越式发展及多变环境下带来的机遇和挑战,企业在成本和资源优化方面面临较大压力。因此,自动化的对云环境资源进行升级或降级,减少系统资源消耗成为云环境面临的重要问题。
现有技术中,采用强化学习Q-learning算法来解决资源分配问题。但是,在云资源分配问题上,现有的强化学习算法存在着训练学习容易陷入局部循环,导致采取的决策可能并不是最优的决策,造成资源的浪费。
发明内容
本申请提供一种资源的分配处理方法、装置、设备及存储介质,以解决现有技术资源分配容易造成资源浪费等缺陷。
本申请第一个方面提供一种资源的分配处理方法,包括:
获取当前资源状态及预设决策集合中各决策当前被采用次数;
基于所述当前资源状态及所述预设决策集合中各决策当前被采用次数,采用预设决策选择规则确定目标资源分配决策;
根据所述目标资源分配决策进行资源的分配处理。
进一步地,所述当前资源状态包括当前资源配置状态、当前资源消耗状态及当前时间状态;所述预设决策集合包括至少两种预设决策;
所述基于所述当前资源状态及所述预设决策集合中各决策当前被采用次数,采用预设决策选择规则确定目标资源分配决策,包括:
基于所述当前资源配置状态、所述当前资源消耗状态、所述当前时间状态、所述预设决策集合中各决策当前被采用次数,采用所述预设决策选择规则,从所述预设决策集合中确定至少一个决策作为所述目标资源分配决策。
进一步地,所述基于所述当前资源状态及所述预设决策集合中各决策当前被采用次数,采用预设决策选择规则确定目标资源分配决策,包括:
遍历所述预设决策集合中的决策,获取使Q(S,a)-log(count(S,a))最大的决策a作为所述目标资源分配决策;
其中,S表示当前资源状态,a表示决策,Q(S,a)表示当前资源状态S下采用决策a的Q值,即累积奖励值,count(S,a)表示决策a当前被采用次数,即在与当前资源状态一致的资源状态下采用了决策a的次数,log(count(S,a))表示对count(S,a)取对数。
进一步地,在根据所述目标资源分配决策进行资源的分配处理之后,所述方法还包括:
获取当前Q值矩阵,当前Q值矩阵中每个Q值表征了相应时间状态采用相应决策的累积奖励值;
根据所述当前Q值矩阵中,所述当前资源状态的后一资源状态对应的最大Q值,获取所述当前时间状态下采用所述目标资源分配决策所对应的新Q值;
根据所述新Q值更新所述Q值矩阵,并将所述目标资源分配决策的当前被采用次数加1获得所述目标资源分配决策的新当前被采用次数,所述目标资源分配决策的当前被采用次数为在与所述当前时间状态一致的历史时间状态采用所述目标资源分配决策的次数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东软集团股份有限公司,未经东软集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811321302.3/2.html,转载请声明来源钻瓜专利网。