[发明专利]一种电力信息通信设备自动化测试资源调度方法有效
申请号: | 201911194721.X | 申请日: | 2019-11-28 |
公开(公告)号: | CN111026549B | 公开(公告)日: | 2022-06-10 |
发明(设计)人: | 王维洲;张驯;拜润卿;袁晖;闫晓斌;马宏忠;李方军;黄蓉;李志新 | 申请(专利权)人: | 国网甘肃省电力公司电力科学研究院;国网甘肃省电力公司;国家电网有限公司 |
主分类号: | G06F9/50 | 分类号: | G06F9/50;G06N3/04;G06N3/08;G06Q50/06 |
代理公司: | 北京卓岚智财知识产权代理事务所(特殊普通合伙) 11624 | 代理人: | 郭智 |
地址: | 730070 甘肃*** | 国省代码: | 甘肃;62 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 电力 信息 通信 设备 自动化 测试 资源 调度 方法 | ||
1.一种电力信息通信设备自动化测试资源调度方法,其特征在于,基于深度强化学习A3C的电力信息通信设备自动化测试资源调度方法能够改善测试资源利用率,提高自动化测试效率,所述方法具体包括如下步骤:
步骤A,分析基于云计算的电力信息通信设备自动化测试平台架构,构建测试平台资源模型;
步骤B,根据步骤A测试平台及其资源模型的分析,构建基于深度强化学习A3C的资源调度算法模型;
步骤C,综合分析电力信息通信设备自动化测试环境与资源调度算法方案,确定深度强化学习A3C网络与测试环境交互的状态、动作、奖励值,以及智能体与全局网络神经网络交互更新策略;
步骤D,确定资源调度算法的优势函数评估策略和策略参数梯度下降更新函数,加快算法收敛;
步骤E,最后设计基于深度强化学习的资源分配算法具体流程,求解最优资源分配策略;
其中,步骤A具体包括:
A1,分析基于云计算的电力信息通信设备自动化测试平台结构,其可分为用户层、管理层和资源层三层结构,测试人员提交测试任务后,管理层资源调度模块为任务分配相应的测试资源,测试资源由物理资源虚拟化产生;
A2,将基于云计算的测试资源虚拟机表示为Vm={Vm1,Vm2,...Vmn},每个虚拟机占有资源为Vmi={stoi,cali,bani},其中stoi表示虚拟存储,cali表示虚拟计算资源,bani表示虚拟链路带宽;
A3,物理资源层所拥有的物理机表示为Pm={Pm1,Pm2,...Pmn},每个物理机对应的物理资源表为Pmi={STOi,CALi,BANi},其中STOi表示物理存储资源,CALi表示物理存储资源,BANi表示实际的物理链路带宽;
A4,将电力信息通信设备自动化测试任务表示为Tt={t1,t2,...tl},假设每个测试项目有l个测试任务,根据任务资源需求,建立测试任务与虚拟机分配模型为其中dln表示针对测试任务tn调度虚拟机Vmn,如果软件测试项目任务在此虚拟机上执行,则dln=1,否则为0;
其中,步骤B具体包括:
B1,将基于云计算的资源调度算法模型分为环境模块和A3C强化学习训练模块,环境模块包括测试任务、测试执行、测试资源和资源调度状态,A3C训练模块采用多智能体与全局网络交互的训练模式;
B2,采用多个智能体进行多线程训练时,每个智能体分别与通信设备自动化测试环境进行状态、动作和奖励的交互训练,计算优化各自的策略函数和值函数,使策略表现更加准确,然后将每个智能体学习到的参数异步更新到全局网络;
B3,全局网络根据多个智能体提供的参数更新本体策略值函数,智能体下一次与环境交互学习时,再从全局网络获取更新参数,直到达到训练终止条件;
其中,步骤C具体包括:
C1,设置状态st,指具体测试任务资源配置情况,例如虚拟机CPU和存储器的数量分配情况,将其表示为st={ti,Vmi,Pmi},即测试任务和资源使用状态的集合;
C2,设置动作at,将其表示为at={dln|π},即在动作选取概率策略π(s)下采取的资源映射行为;
C3,设置奖励r,指资源调度系统采取深度强化学习算法下发的动作后获得的回报,为降低复杂度,只考虑计算、存储、带宽资源利用率和测试任务传输时延,将其可表示为线性组合的方法其中i代表物理机,j代表物理机上的存储、计算和网络带宽资源;λj表示资源权重因子;Pmiju表示第i台物理机上已经使用的第j类资源,Pmijt表示第i台物理机上第j类资源总量;delay表示测试业务传输时延,r越大表示资源利用率越高,时延越小,资源调度效果越好,训练模型获得奖励越高;
其中,步骤D具体包括:
D1,算法训练使用n步采样来加快收敛,采用优势函数评估策略,通过评论家网络产生,表示为:
A(s,t)=Rt+γRt+1+...γn-1Rt+n-1+γnV(s′)-V(s)
其中,γ表示衰减因子,取值(0,1);n表示状态特征维度;A表示动作集;t表示时间序列;R表示每个动作总回报;V(s)表示输入状态价值函数;
D2,通过更新策略梯度函数,使总回报期望上升,寻找最优策略,策略梯度函数为:
策略参数梯度下降更新函数为:
其中,c表示策略π的熵项熵系数;
其中,步骤E具体包括:
E1,测试人员将测试任务提交到基于云计算的软件自动化测试平台,资源调度系统提取测试任务需求ti,并感知资源状态;
E2,根据虚拟资源和测试任务环境状态初始化深度强化学习模型,主要包括环境状态st和训练参数,训练参数包括表示全局神经网络策略函数和状态值函数参数θ、θv,线程智能体网络策略函数和状态值函数参数θ′、θ′v,全局共享迭代次数T;
E3,执行训练;多个线程智能体与分别与测试环境进行状态和动作交互,实施资源分配动作,获得奖励rt和新状态st+1,生成训练数据样本(s,a,r);
E4,根据奖励回馈,调整资源分配动作,累计n步梯度更新;
E5,异步更新全局网络参数θ←dθ、θv←dθv;
E6,循环迭代训练,直到最大迭代次数Tmax,获得最大奖励Rmax;
E7,获得最优资源分配策略。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网甘肃省电力公司电力科学研究院;国网甘肃省电力公司;国家电网有限公司,未经国网甘肃省电力公司电力科学研究院;国网甘肃省电力公司;国家电网有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911194721.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用扁担梁牵引大型结构物的新工艺
- 下一篇:一种用于汽车配件制造的切割系统
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置