[发明专利]一种资源分配方法、装置及设备有效
申请号: | 202210515110.6 | 申请日: | 2022-05-12 |
公开(公告)号: | CN114727407B | 公开(公告)日: | 2022-08-26 |
发明(设计)人: | 徐波;成芳娟;徐博 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | H04W72/04 | 分类号: | H04W72/04;G06N3/08 |
代理公司: | 北京墨丘知识产权代理事务所(普通合伙) 11878 | 代理人: | 唐忠仙 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 资源 分配 方法 装置 设备 | ||
本发明公开了一种资源分配方法、装置及设备,涉及人工智能技术领域,其中,所述方法包括:获取至少两个虚拟对象以及所述至少两个虚拟对象分别对应的态势信息;根据所述态势信息,创建至少两个分配节点,所述至少两个分配节点的数量大于或等于所述至少两个虚拟对象的数量;在所述至少两个分配节点中,逐一对所述至少两个虚拟对象进行资源分配,直到所述至少两个虚拟对象资源分配完成,得到联合分配动作;将所述联合分配动作输入到环境中,得到资源分配结果。通过上述方式,本发明实现了虚拟对象间无协商无通信的情况下完成资源的最优分配。
技术领域
本发明涉及人工智能技术领域,具体涉及一种资源分配方法、装置及设备。
背景技术
静态多资源多目标分配问题属于单次决策组合优化问题,直接采用经典的端到端的深度强化学习方法难以奏效,因为此方法主要用于解决序列决策的优化问题。此外,深度强化学习方法是基于数据驱动的优化方法,能够实现解空间的大范围覆盖和探索,但是当实际问题中的解空间比较窄或存在很多次优解时,很难探索到最优的解。且深度强化学习方法高度依赖高质量的大数据,但是由于实际条件的约束,高质量的数据较难获取。
综上所述,面对单次决策组合优化、虚拟对象间无协商无通信等实际问题,直接采用传统的优化方法和经典的强化学习算法是比较难解决的。
基于此,如何解决在多资源多目标分配场景中,虚拟对象间无协商无通信以及单次决策组合优化问题(即在虚拟对象间无协商无通信的情况下完成资源的最优分配)是本领域人员亟待解决的问题。
发明内容
为解决上述问题,提出了本发明实施例的资源分配方法、装置及设备。
根据本发明实施例的一个方面,提供了一种资源分配方法,包括:
获取至少两个虚拟对象以及所述至少两个虚拟对象分别对应的态势信息;
根据所述态势信息,创建至少两个分配节点,所述至少两个分配节点的数量大于或等于所述至少两个虚拟对象的数量;
在所述至少两个分配节点中,逐一对所述至少两个虚拟对象进行资源分配,直到所述至少两个虚拟对象资源分配完成,得到联合分配动作;
将所述联合分配动作输入到环境中,得到资源分配结果。
可选的,所述态势信息包括以下至少一种:
共享态势信息和局部态势信息。
可选的,对所述至少两个虚拟对象进行资源分配,包括:
通过算法,对所述至少两个虚拟对象进行资源分配,其中,a是指所述至少两个虚拟对象中每个虚拟对象分配的结果,s是指态势信息,是指最大值自变量点集函数,是指动作值,是指置信值。
可选的,将所述联合分配动作输入到环境中,得到资源分配结果,包括:
将所述联合分配动作输入到环境中,得到环境验证结果;
若所述环境验证结果满足相应条件,得到所述资源分配结果;
若所述环境验证结果不满足相应条件,得到环境反馈信息;
根据所述环境反馈信息,更新所述至少两个分配节点,得到更新后的至少两个分配节点;
在所述更新后的至少两个分配节点中,重复执行逐一对所述至少两个虚拟对象进行资源分配,直到所述至少两个虚拟对象资源分配完成,得到联合分配动作,将所述联合分配动作输入到环境中,得到环境验证结果的步骤。
可选的,在获取至少两个虚拟对象以及所述至少两个虚拟对象分别对应的态势信息之后,还包括:
将所述至少两个虚拟对象以及所述至少两个虚拟对象分别对应的态势信息输入到训练得到的神经网络中;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210515110.6/2.html,转载请声明来源钻瓜专利网。