[发明专利]一种资源分配方法、装置及设备有效
申请号: | 202210515110.6 | 申请日: | 2022-05-12 |
公开(公告)号: | CN114727407B | 公开(公告)日: | 2022-08-26 |
发明(设计)人: | 徐波;成芳娟;徐博 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | H04W72/04 | 分类号: | H04W72/04;G06N3/08 |
代理公司: | 北京墨丘知识产权代理事务所(普通合伙) 11878 | 代理人: | 唐忠仙 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 资源 分配 方法 装置 设备 | ||
1.一种资源分配方法,其特征在于,所述方法包括:
获取至少两个虚拟对象以及所述至少两个虚拟对象分别对应的态势信息;
根据所述态势信息,创建至少两个分配节点,所述至少两个分配节点的数量大于或等于所述至少两个虚拟对象的数量;
在所述至少两个分配节点中,逐一对所述至少两个虚拟对象进行资源分配,直到所述至少两个虚拟对象资源分配完成,得到联合分配动作;
将所述联合分配动作输入到环境中,得到资源分配结果;
对所述至少两个虚拟对象进行资源分配,包括:
通过算法a=argmaxa(Q(s,a)+U(s,a)),对所述至少两个虚拟对象进行资源分配,其中,a是指所述至少两个虚拟对象中每个虚拟对象分配的结果,s是指态势信息,argmaxa是指最大值自变量点集函数,Q(s,a)是指动作值,U(s,a)是指置信值。
2.根据权利要求1所述的资源分配方法,其特征在于,所述态势信息包括以下至少一种:
共享态势信息和局部态势信息。
3.根据权利要求1所述的资源分配方法,其特征在于,将所述联合分配动作输入到环境中,得到资源分配结果,包括:
将所述联合分配动作输入到环境中,得到环境验证结果;
若所述环境验证结果满足相应条件,得到所述资源分配结果;
若所述环境验证结果不满足相应条件,得到环境反馈信息;
根据所述环境反馈信息,更新所述至少两个分配节点,得到更新后的至少两个分配节点;
在所述更新后的至少两个分配节点中,重复执行逐一对所述至少两个虚拟对象进行资源分配,直到所述至少两个虚拟对象资源分配完成,得到联合分配动作,将所述联合分配动作输入到环境中,得到环境验证结果的步骤。
4.根据权利要求1所述的资源分配方法,其特征在于,在获取至少两个虚拟对象以及所述至少两个虚拟对象分别对应的态势信息之后,还包括:
将所述至少两个虚拟对象以及所述至少两个虚拟对象分别对应的态势信息输入到训练得到的神经网络中;
在将所述联合分配动作输入到环境中,得到资源分配结果之后,还包括:
将所述资源分配结果的过程所产生的运行数据储存到记忆库中。
5.根据权利要求4所述的资源分配方法,其特征在于,当所述记忆库中的所述运行数据达到上限时,对所述神经网络进行训练,所述神经网络通过以下方法训练得到:
将预存储的运行数据作为训练样本;
提取所述训练样本中至少两个训练虚拟对象以及所述至少两个训练虚拟对象分别对应的训练态势信息;
根据所述训练态势信息,在优化待优化神经网络过程中创建至少两个训练分配节点,所述至少两个训练分配节点的数量大于或等于所述至少两个训练虚拟对象的数量;
在所述至少两个训练分配节点中,逐一对所述至少两个训练虚拟对象进行资源分配,直到所述至少两个训练虚拟对象资源分配完成,得到训练联合分配动作;
将所述训练联合分配动作输入到训练环境中,得到训练环境反馈信息,所述训练环境反馈信息用于表征相应训练联合分配动作的有效程度;
根据所述训练环境反馈信息调整所述待优化神经网络的参数,得到所述神经网络。
6.根据权利要求5所述的资源分配方法,其特征在于,在优化待优化神经网络过程中创建至少两个训练分配节点之后,还包括:
对所述至少两个训练分配节点中每一个训练分配节点进行第一判断,所述第一判断是指判断所述训练分配节点中是否包含所有合规动作的子节点;
若所述训练分配节点包含所有合规动作的子节点,则在所述训练分配节点中选择所述合规动作的子节点;
若所述训练分配节点未包含所有合规动作的子节点,则根据所述训练分配节点对应的动作空间进行扩展子节点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210515110.6/1.html,转载请声明来源钻瓜专利网。