[发明专利]一种基于深度强化学习的机动通信网智能规划方法有效
申请号: | 201911219452.8 | 申请日: | 2019-12-03 |
公开(公告)号: | CN111104732B | 公开(公告)日: | 2022-09-13 |
发明(设计)人: | 杨若鹏;聂宗哲;殷昌盛;江尚;朱巍;邹小飞;张其增 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G06F30/20 | 分类号: | G06F30/20;G06F30/18 |
代理公司: | 北京兴智翔达知识产权代理有限公司 11768 | 代理人: | 郭卫芹 |
地址: | 430000 *** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 机动 通信网 智能 规划 方法 | ||
1.一种基于深度强化学习的机动通信网智能规划方法,其特征在于,所述方法包括以下步骤:
S1、资源要素预处理,对机动通信网的架设地域、保障节点、被保障用户进行抽象和映射,建立机动通信网资源要素的仿真模型;
S2、规划规则预处理,对机动通信网的保障关系、规划状态进行抽象和映射,融合步骤S1的资源要素仿真模型,建立机动通信网规划的整体仿真模型;
S3、训练样本生成,按照步骤S2的整体仿真模型建立网络规划仿真,并采用搜索方法运行模拟,产生训练样本并形成可供深度强化学习使用的训练样本集;
S4、模型训练,基于深度强化学习算法,使用步骤S3的训练样本对步骤S2的整体仿真模型进行训练,对每次的训练结果进行比较筛选,将得到的规划空间策略和步骤实时规划满足度反馈到步骤S3,优化所述搜索算法的搜索结果,得到优化训练样本;
S5、模型生成,将得到的优化训练样本输入步骤S4的训练网络中,根据训练目标构造联合损失函数,并依照联合损失函数指示,对样本进行搜索和训练,生成机动通讯网网络规划模型。
2.根据权利要求1所述的基于深度强化学习的机动通信网智能规划方法,其特征在于,所述资源要素预处理包括以下步骤:
S1.1、对机动通信网网络的架设地域进行预处理;
S1.2、对机动通信网网络的保障节点进行预处理;
S1.3、对机动通信网网络的被保障用户进行预处理。
3.根据权利要求1所述的基于深度强化学习的机动通信网智能规划方法,其特征在于,所述规划规则预处理包括以下步骤:
S2.1、对机动通信网网络的连接关系进行预处理;
S2.2、对机动通信网网络的规划状态进行预处理。
4.根据权利要求1所述的基于深度强化学习的机动通信网智能规划方法,其特征在于,所述训练样本生成包括以下步骤:
S3.1、按照步骤S2的整体仿真模型,建立网络规划仿真,初始训练时,首先随机生成被保障用户位置;
S3.2、对应生成的被保障用户位置,使用搜索算法进行模拟部署;
S3.3、使用搜索方法重复模拟部署,得到满足条件的样本和评价集。
5.根据权利要求1所述的基于深度强化学习的机动通信网智能规划方法,其特征在于,所述模型训练包括以下步骤:
S4.1、初始化使用三大类要素描述规划局面;
S4.2、递归神经网络采用公共的全卷积网络,构造过滤器(filter),尾部分成规划策略和规划满足度两路分支;
S4.3、将步骤S4.2的结果反馈给步骤3.2,细化搜索过程;
S4.4、定义局部策略评价;
S4.5、结合递归神经网络输出,搜索流程全部更新为寻找最大值的部署动作;
S4.6、按照步骤S4.5的流程,对每一个态势结合用时和有效结果,执行搜索流程,确定新的选址策略。
6.根据权利要求1所述的基于深度强化学习的机动通信网智能规划方法,其特征在于,所述模型生成包括以下步骤:
S5.1、根据训练目标构造联合损失函数;
S5.2、对模型训练后与训练前对比,按照仿真模型规则进行结果评判;
S5.3、基于步骤S4.1和S4.2进行训练,获取机动通信网网络规划模型。
7.根据权利要求1或4所述的基于深度强化学习的机动通信网智能规划方法,其特征在于,所述搜索方法为基于上限置信区间算法(UCT)的蒙特卡洛树搜索方法。
8.根据权利要求1所述的基于深度强化学习的机动通信网智能规划方法,其特征在于,所述深度强化学习算法为递归神经网络。
9.一种基于深度强化学习的机动通信网智能规划装置,其特征在于,所述装置包括:
资源要素预处理模块100:对机动通信网的架设地域、保障节点、被保障用户进行抽象和映射,建立机动通信网资源要素的仿真模型,具体包括:
架设地域预处理单元101:对机动通信网网络的架设地域进行预处理;
保障节点预处理单元102:对机动通信网网络的保障节点进行预处理;
被保障用户预处理单元103:对机动通信网网络的被保障用户进行预处理;
规划规则预处理模块200:对机动通信网的保障关系、规划状态进行抽象和映射,融合资源要素预处理模块100的资源要素仿真模型,建立机动通信网规划的整体仿真模型,具体包括:
连接关系预处理单元201:对机动通信网网络的连接关系进行预处理;
规划状态预处理单元202:对机动通信网网络的规划状态进行预处理;
训练样本生成模块300:按照规划规则预处理模块200的整体仿真模型建立网络规划仿真,并采用搜索方法运行模拟,产生训练样本并形成可供深度强化学习使用的训练样本集,具体包括:
网络规划仿真建立单元301:按照规划规则预处理模块200的整体仿真模型,建立网络规划仿真,初始训练时,首先随机生成被保障用户位置;
模拟部署单元302:对应生成的被保障用户位置,使用搜索算法进行模拟部署;
样本和评价集生成单元303:使用搜索方法重复模拟部署,得到满足条件的样本和评价集;
模型训练模块400:基于递归神经网络,使用训练样本生成模块300的训练样本对规划规则预处理模块200的整体仿真模型进行训练,对每次的训练结果进行比较筛选,将得到的规划空间策略和步骤实时规划满足度反馈到训练样本生成模块300,优化所述搜索算法的搜索结果,得到优化训练样本,具体包括:
规划局面初始化单元401:初始化使用三大类要素描述规划局面;
过滤器构造单元402:递归神经网络采用公共的全卷积网络,构造过滤器(filter),尾部分成规划策略和规划满足度两路分支;
搜索过程细化单元403:将过滤器构造单元402的结果反馈给模拟部署单元302,细化搜索过程;
局部策略评价定义单元404:定义局部策略评价;
搜索过程更新单元405:结合递归神经网络输出,搜索流程全部更新为寻找最大值的部署动作;
新选址策略确定单元406:按照搜索过程更新单元405的流程,对每一个态势结合用时和有效结果,执行搜索流程,确定新的选址策略;
模型生成模块500:将得到的优化训练样本输入模型训练模块400的训练网络中,根据训练目标构造联合损失函数,并依照联合损失函数指示,对样本进行搜索和训练,生成机动通讯网网络规划模型,具体包括:
联合损失函数构造单元501:根据训练目标构造联合损失函数;
结果评判单元502:对模型训练后与训练前对比,按照仿真模型规则进行结果评判;
模型生成单元503:基于规划局面初始化单元401和过滤器构造单元402进行训练,获取机动通信网网络规划模型;
网络规划模块600:应用训练好的网络规划模型,输入架设地域、保障节点、被保障用户参数,获取机动通信网络规划参数,具体包括:
网络规划要素输入单元601:输入架设地域、保障节点、被保障用户参数;
模型运算单元602:调用训练好的网络规划模型进行运算;
网络规划参数生成单元603:模型生成网络规划参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911219452.8/1.html,转载请声明来源钻瓜专利网。