[发明专利]一种基于极限梯度提升的云工作流任务执行时间预测方法在审

申请号：	201910165772.3	申请日：	2019-03-06
公开（公告）号：	CN109981749A	公开（公告）日：	2019-07-05
发明（设计）人：	李慧芳;韦琬雯;樊锐;胡光政;邹伟东;柴森春;夏元清	申请（专利权）人：	北京理工大学
主分类号：	H04L29/08	分类号：	H04L29/08;H04L12/24
代理公司：	北京理工正阳知识产权代理事务所(普通合伙) 11639	代理人：	唐华
地址：	100081 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	任务执行工作流时间预测数据处理能力样本数据类型参数设计机器学习任务运行时间影响数据缺失算法训练样本数据影响因素预测模型预测误差多类型计算量数据集学习器云计算减小建模算法并行分类
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于极限梯度提升的云工作流任务执行时间预测方法，其特征在于，包括以下步骤：

步骤一、对云工作流任务执行时间影响因素进行建模；

建模涉及云工作流任务本身、云工作流运行物理环境及其资源配置；

步骤二、根据步骤一建立的云工作流任务执行时间影响因素模型，采集所有相关数据；同时，记录相应于影响因素的云工作流任务执行时间；

步骤三、对步骤二采集的相关数据进行缺失值检验；如果存在数据缺失，则进行数据补全,然后执行步骤四；如果不存在数据缺失，则执行步骤四；

步骤四、利用检测后的相关数据，构建云工作流任务执行时间预测模型的样本数据集，将样本数据集划分为训练数据集与测试数据集，分别用于训练与测试，将影响因素数据和任务执行时间数据分别作为预测模型的输入、输出；

步骤五、在步骤四构建的样本数据集上，采用极限梯度提升学习云工作流任务执行时间及其影响因素之间的非线性映射关系,训练并构建云工作流任务执行时间预测模型；

步骤六、将待预测的云工作流任务影响因素，输入到步骤五训练好的模型中，实现云工作流任务执行时间的预测。

2.如权利要求1所述的一种基于极限梯度提升的云工作流任务执行时间预测方法，其特征在于，所述步骤进行数据补全时，采用基于随机森林的数据缺失值补全方法，包括以下步骤：

每生成一个新的数据集，需依次执行以下步骤：

步骤1、读入原始数据，检查其是否存在缺失值，并记录存在数据缺失值的影响因素名称与属性；

步骤2、根据影响因素名称，分析确定与该影响因素相关且数据完整的其他影响因素；

步骤3、对于离散型与连续型影响因素的数据缺失，分别采用随机森林分类与回归模型进行补全；其中，存在数据缺失值的影响因素作为模型输出，而与其相关且数据完整的其他影响因素作为模型输入。

3.如权利要求1所述的一种基于极限梯度提升的云工作流任务执行时间预测方法，其特征在于，所述步骤五的具体实现方法如下：

所述目标函数L(φ)如式(1)所示；

其中，i表示训练样本数据集中的第i个样本；l为可微凸损失函数，用以衡量预测值和真实值y_i之间的差距；Ω为附加正则项，即树的复杂度函数，用于惩罚模型的复杂性，附加正则项有助于平滑最终的学习权重以避免过拟合；f_k表示第k棵树；T表示叶子个数，ω表示叶子权重；γ和λ是系数，其值通过参数寻优得到；

每输入一个训练样本，依次执行以下步骤：

对于给定的含有n个样本和m个特征的样本数据集D＝{(x_i,y_i)}，其中|D|＝n,x_i∈R^m,y_i∈R^m，x_i表示第i个样本的输入向量，y_i表示x_i对应的输出；

步骤1、建立计算预测值的累加函数模型，如式(2)所示：

其中，F＝{f(x)＝ω_q(x)|q:R^m→T,ω∈R^T}，表示回归树空间；q表示每棵树的结构函数，即输入x_i到叶子索引号的映射；输出预测值为K棵回归树决策结果的累加；

步骤2、用表示t次迭代过程中第i个样本x_i的输出预测值，并将其t次迭代产生的回归树f_t(x_i)代入式(1)，则是其t-1次迭代的输出预测结果与f_t(x_i)之和，如式(3)所示：

步骤3、根据式(3)更新目标函数式(1)，则t次迭代时需最小化的目标函数如式(4)所示：

步骤4、采用二次函数泰勒展开对式(4)的目标函数进行优化，如式(5)所示：

其中，分别表示损失函数的一阶、二阶梯度统计量；

步骤5、在式(5)中移除不影响求解结果的常数项，得到t次迭代的简化目标函数，如式(6)所示：

步骤6、定义叶子j上的样本集合为I_j＝{i|q(x_i)＝j}，将式(1)中的Ω(f_t)代入式(6)，得到如式(7)所示的目标函数：

其中，G_j和H_j分别表示叶子j上所有样本集合损失函数的一阶、二阶梯度统计量累加和，即

步骤7、对树结构q(x_i)，可通过对式(7)中的ω_j求导得到叶子j的权重最优解如式(8)所示：

步骤8、将最优解代回到、式(7)，得到衡量树结构q(x_i)的分值函数如式(9)所示，且分值越小,树结构越好：

步骤9、计算当前叶子节点分裂后的损失减少情况，据此判断当前叶子节点是否需要进一步分裂；

当前叶子节点是否需要进一步分裂，取决于其分裂后的损失减少，其计算如式(10)所示：

其中，I_L和I_R分别表示当前叶子节点分裂后形成的左、右节点样本集，且I＝I_L∪I_R；

如果损失减小，则需要分裂，并将当前叶子节点作为候选分裂点，然后执行步骤10；如果损失没有减小，则不需要分裂，且当前叶子节点不作为候选分裂点；

步骤10、采用贪心算法查找分裂点，对于当前叶子上的样本集合I，根据式(9)和(10)分别计算其分值以及分裂后的损失减少，取其中较大者作为该叶子节点的分值；同理，对所有叶子节点依次计算其分值，判断其分裂可能性，并选取分值最大的叶子节点进行分裂；

步骤11、依次按照步骤2至步骤10，重复生成基学习器，直至生成所需数目的基学习器；将所有基学习器的输出预测结果，按照式(2)进行累加以得到最终预测模型的输出结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京理工大学，未经北京理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910165772.3/1.html，转载请声明来源钻瓜专利网。

上一篇：一种基于Kong网关实现的正向代理方法
下一篇：业务流程系统、业务数据处理方法和装置

同类专利

专利分类

H 电学

H04 电通信技术
H04L 数字信息的传输，例如电报通信
H04L29-00 H04L 1/00至H04L 27/00单个组中不包含的装置、设备、电路和系统
H04L29-02 .通信控制；通信处理
H04L29-12 .以数据终端为特征的
H04L29-14 .故障的应对措施
H04L29-04 ..用于多条通信线路的
H04L29-06 ..以协议为特征的

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于极限梯度提升的云工作流任务执行时间预测方法在审

专利文献下载