[发明专利]多样性策略的生成方法、装置、介质和计算设备在审
申请号: | 202111668462.7 | 申请日: | 2021-12-31 |
公开(公告)号: | CN114282640A | 公开(公告)日: | 2022-04-05 |
发明(设计)人: | 不公告发明人 | 申请(专利权)人: | 北京瑞莱智慧科技有限公司 |
主分类号: | G06N3/02 | 分类号: | G06N3/02 |
代理公司: | 北京箴思知识产权代理有限公司 11913 | 代理人: | 李春晖;曾晓波 |
地址: | 100084 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 多样性 策略 生成 方法 装置 介质 计算 设备 | ||
本申请的实施例涉及人工智能技术领域,一些实施例提供了一种多样性策略的生成方法、装置、介质和计算设备。该方法包括:获取当前状态数据、指示参数以及环境奖励;所述当前状态数据中包括但不限于多个终端设备的当前观测状态数据;将所述多个终端设备的当前观测状态数据和所述指示参数输入至神经网络模型,得到虚拟奖励;根据所述虚拟奖励、所述环境奖励以及预设的约束参数得到总奖励;根据所述总奖励对累积奖励进行更新,得到更新后的累积奖励;如果所述累积奖励达到预设的目标奖励,根据预设变分下届阈值、所述当前状态数据以及指示参数得到多样性策略,所述多样性策略用于配置多个终端设备。本申请的方法能够使神经网络模型的鲁棒性提升。
技术领域
本申请的实施例涉及人工智能技术领域,更具体地涉及一种多样性策略的生成方法、装置、介质和计算设备。
背景技术
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
近年来,神经网络在一系列深度强化学习的任务上,取得了优越的性能,例如可以应用在机器人控制、游戏、棋类运动等多个领域。通常可以向神经网络模型中输入智能体的状态数据,神经网络模型可以对状态数据进行处理,输出智能体将要实现的动作数据,以使智能体可以执行较高水平的动作。
发明内容
但是,出于神经网络模型的数据处理方式的原因,现有技术中如果有多个智能体需要同时进行处理,则需要神经网络模型对每个智能体的状态数据进行处理,然而,神经网络模型对每个智能体的状态数据处理的方式是相同的,因此输出的智能体需要实现的动作数据也是同一种固定的模式,可见,现有的数据处理方式很容易对状态数据过拟合,输出一种固定模式的动作数据。
因此在现有技术中,只能输出固定模式数据的神经网络模型的鲁棒性较差。
为此,非常需要一种改进的多样性策略的生成方法,以使神经网络模型的鲁棒性提升。
在本上下文中,本申请的实施例期望提供一种多样性策略的生成方法、装置、介质和计算设备。
在本申请的第一方面中,提供了一种多样性策略的生成方法,包括:
获取当前状态数据、指示参数以及环境奖励;所述当前状态数据中包括但不限于多个终端设备的当前观测状态数据;
将所述多个终端设备的当前观测状态数据和所述指示参数输入至神经网络模型,得到虚拟奖励;
根据所述虚拟奖励、所述环境奖励以及预设的约束参数得到总奖励;
根据所述总奖励对累积奖励进行更新,得到更新后的累积奖励;所述累积奖励为根据多个历史全局状态数据多个终端设备的多个历史观测状态数据得到的多个历史总奖励之和;
如果所述累积奖励达到预设的目标奖励,根据预设变分下届阈值、所述当前状态数据以及指示参数得到多样性策略,所述多样性策略用于配置多个终端设备。
在本申请的第二方面中,提供了一种多样性策略的生成装置,包括:
获取单元,用于获取当前状态数据、指示参数以及环境奖励;所述当前状态数据中包括但不限于多个终端设备的当前观测状态数据;
输入单元,用于将所述多个终端设备的当前观测状态数据和所述指示参数输入至神经网络模型,得到虚拟奖励;
总奖励确定单元,用于根据所述虚拟奖励、所述环境奖励以及预设的约束参数得到总奖励;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京瑞莱智慧科技有限公司,未经北京瑞莱智慧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111668462.7/2.html,转载请声明来源钻瓜专利网。