[发明专利]OTN网络资源优化方法、装置、计算机设备和介质在审
申请号: | 202010899413.3 | 申请日: | 2020-08-31 |
公开(公告)号: | CN114125595A | 公开(公告)日: | 2022-03-01 |
发明(设计)人: | 王大江;叶友道;王振宇 | 申请(专利权)人: | 中兴通讯股份有限公司 |
主分类号: | H04Q11/00 | 分类号: | H04Q11/00 |
代理公司: | 北京天昊联合知识产权代理有限公司 11112 | 代理人: | 姜春咸;刘悦晗 |
地址: | 518057 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | otn 网络资源 优化 方法 装置 计算机 设备 介质 | ||
1.一种OTN网络资源优化方法,其特征在于,包括:
根据动作策略确定当前业务建立状态下的待建业务,创建所述待建业务,并计算当前业务建立状态下的及时奖励,进入下一个业务建立状态,直到一个回合结束,根据各个业务建立状态下的及时奖励计算并更新各个业务建立状态下的优化目标策略参数;
迭代预设次数回合,以计算并更新各业务建立状态下的优化目标策略参数;
根据所述预设次数回合中各业务建立状态下的优化目标策略参数,分别确定每个业务建立状态下的最优优化目标策略参数;
根据各业务建立状态下的最优优化目标策略参数更新所述动作策略。
2.如权利要求1所述的方法,其特征在于,所述根据各个业务建立状态下的及时奖励计算并更新各个业务建立状态下的优化目标策略参数,包括:
根据下一个业务建立状态之后各业务建立状态下的及时奖励计算当前业务建立状态下的预期回报;
根据所述当前业务建立状态下的预期回报计算并更新当前业务建立状态下的优化目标策略参数。
3.如权利要求2所述的方法,其特征在于,根据以下公式计算当前业务建立状态下的预期回报:
其中,Gt为业务建立状态St下执行动作at的预期回报,γ为折扣系数,0<γ<1;R为及时奖励,t为业务建立状态St下已创建的业务的数量,t=(0,…,n-1),n为OTN网络待建业务的总数量。
4.如权利要求2所述的方法,其特征在于,每个回合中最后一个业务建立状态下的预期回报为所述回合的实际总回报,在计算每个回合中最后一个业务建立状态下的实际总回报之后,计算每个回合中最后一个业务建立状态下的优化目标策略参数之前,所述方法还包括:
根据所述实际总回报、预设的阈值和预设的额外回报更新所述实际总回报;其中,若实际总回报大于或等于所述阈值,则实际总回报=实际总回报+所述额外回报;若实际总回报小于所述阈值,则实际总回报=实际总回报-所述额外回报。
5.如权利要求2所述的方法,其特征在于,所述优化目标策略参数包括状态行为值或者,
所述优化目标策略参数包括状态值Vπ(s),其中,π(a|s)为业务建立状态S下根据动作策略π(s,a)采取动作a的概率,A为各业务建立状态下执行动作的集合。
6.如权利要求5所述的方法,其特征在于,当所述优化目标策略参数为状态行为值Qπ(s,a)时,采用蒙特卡罗算法、异策略的时序差分算法或同策略的时序差分算法计算并更新各个业务建立状态下的优化目标策略参数;
所述根据各业务建立状态下的最优优化目标策略参数更新所述动作策略,包括:根据所述状态行为值Qπ(s,a)更新所述动作策略。
7.如权利要求5所述的方法,其特征在于,当所述优化目标策略参数为状态值Vπ(s)时,采用动态规划算法计算所述优化目标策略参数;
所述根据各业务建立状态下的最优优化目标策略参数更新所述动作策略,包括:根据所述状态值Vπ(s)更新所述动作策略。
8.如权利要求1-7任一项所述的方法,其特征在于,所述根据动作策略确定当前业务建立状态下的待建业务,包括:
计算当前业务建立状态下选择各条待建业务的概率;
根据所述当前业务建立状态下选择各条待建业务的概率确定一条待建业务;
根据预设的OTN网络优化目标函数,对确定出的待建业务的备选路由排序;
根据所述排序中备选路由的数量,分别计算所述排序中各备选路由的选择概率;
根据所述排序中各备选路由的选择概率确定一条备选路由,作为当前业务建立状态下的待建业务的路由。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中兴通讯股份有限公司,未经中兴通讯股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010899413.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:折叠终端
- 下一篇:油墨组合物、油墨及其制备方法、反光膜