[发明专利]一种基于强化学习的环境建模方法在审
申请号: | 202310366576.9 | 申请日: | 2023-04-07 |
公开(公告)号: | CN116579231A | 公开(公告)日: | 2023-08-11 |
发明(设计)人: | 蒋新成;高阳;霍静;李文斌;杨光;解宇;韩东 | 申请(专利权)人: | 南京大学深圳研究院;江苏万维艾斯网络智能产业创新中心有限公司 |
主分类号: | G06F30/27 | 分类号: | G06F30/27;G06N3/092 |
代理公司: | 南京泰普专利代理事务所(普通合伙) 32360 | 代理人: | 柯兴宇 |
地址: | 518000 广东省深圳市南山*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 环境 建模 方法 | ||
1.一种基于强化学习的环境建模方法,其特征在于,包括如下步骤:
步骤1,仿真场景选择功能,根据目标任务的类型选择仿真环境,包括应急管理、金融期货和交通控制;
步骤2,仿真环境建模功能,根据所述目标任务的类型判断是否存在专家先验认知,将所述目标任务划分到人工辅助模式或智能模式进行处理,经过处理最后均得到环境文件或环境模型产出;
步骤3,环境模型存储功能,环境模型存储库存储所有产出的环境模型文件,并有选择的供后续多智能体强化学习任务调用学习,以提升多智能体强化学习算法的高效学习。
2.根据权利要求1所述的一种基于强化学习的环境建模方法,其特征在于,所述步骤1中仿真环境的选择具体为:
S1.1预设置的应急管理环境,包括无人机设备在紧急事件发生前的预警,发生后的应急处理;
S1.2预设置的金融期货环境,包括金融市场环境建模,资产配置环境建模,设计期货合约的多空交易;
S1.3预设置的交通控制环境,包括路口交通灯信号控制环境建模,对车辆行驶轨迹优化,设计不同环境下的智能交通决策。
3.根据权利要求1所述的一种基于强化学习的环境建模方法,其特征在于,所述步骤2中划分不同模式的具体步骤为:
S2.1判断所述目标任务的类型是否存在专家先验认知;
S2.2若存在专家先验认知,则通过人工辅助模式进行环境建模,人为构建多智能体目标任务,通过课程学习创建难度逐渐增加的源任务环境文件;
S2.3若目标任务不存在专家先验认知,则通过智能模式进行环境建模,借助仿真环境建模模块内置算法库来隐式约简多智能体目标任务或是学习环境模型。
4.根据权利要求1所述的一种基于强化学习的环境建模方法,其特征在于,所述步骤3具体为:
S3.1环境模型存储库存储了包括人工辅助模式中的可执行的任务文件,智能模式中的交互检测模型学习模块与环境动力学模型学习模块;
S3.2环境模型存储库中的模型文件将被后续多智能体强化学习任务调用,提升多智能体强化学习算法的高效学习。
5.根据权利要求3所述的一种基于强化学习的环境建模方法,其特征在于,所述步骤2中人工辅助模式下的执行步骤为:
S2.1.1用户根据环境父类文件编写源任务环境文件,通过仿真环境可行性验证功能确定环境文件的可行性;
S2.1.2若可行,则在仿真环境生成页面上传到系统中;
S2.1.3若不可行,则需要重新修改并再次提交验证。
6.根据权利要求5所述的一种基于强化学习的环境建模方法,其特征在于,所述步骤2中人工辅助模式下创建源任务环境文件的步骤如下:
S2.2.1根据需求定义源任务;
S2.2.2设计任务集合,所述任务集合为若干与所述源任务相似但难度递增的任务;
S2.2.3使用基于仿真的方法来生成模拟数据,需要记录所述每个任务的难度级别和参数;
S2.2.4构建所述每个任务的环境文件,需要根据所述每个任务的难度级别逐步调整任务参数来逐步增加难度。
7.根据权利要求3所述的一种基于强化学习的环境建模方法,其特征在于,所述步骤2中智能模式下的执行步骤为:
S2.3.1调用仿真环境建模模块的算法库开展学习,用户选择是否进行信息交互检测;
S2.3.2选择是,进入交互检测模型学习模块,模块内置算法将与目标任务场景交互适当回合数,开展多智能体间博弈结构学习;学习完成后,该模型自动保存到系统中;
S2.3.3选择否,进入环境动力学模型学习模块,模块内置算法将与目标任务场景交互适当回合数,开展环境智能模型学习;学习完成后,该模型自动保存到系统中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学深圳研究院;江苏万维艾斯网络智能产业创新中心有限公司,未经南京大学深圳研究院;江苏万维艾斯网络智能产业创新中心有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310366576.9/1.html,转载请声明来源钻瓜专利网。