[发明专利]基于历史运行数据预测并行程序运行时间的方法有效
申请号: | 202010323618.7 | 申请日: | 2020-04-22 |
公开(公告)号: | CN111522644B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 孙广中;周文举;孙经纬 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G06F9/48 | 分类号: | G06F9/48;G06F17/17;G06F17/18;G06F18/2431;G06F18/23213;G06N20/20 |
代理公司: | 北京凯特来知识产权代理有限公司 11260 | 代理人: | 郑立明;韩珂 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 历史 运行 数据 预测 并行 程序 时间 方法 | ||
本发明公开了一种基于历史运行数据预测并行程序运行时间的方法,针对小规模历史运行数据预测大规模运行时间的问题,建立了使用随机森林和多任务套索回归的两层模型,随机森林可以拟合复杂的模型,而使用多任务套索回归,将相关性强的任务放在一起训练,可以降低内推模型预测的随机误差带来的影响。本发明提出的两层模型相较于之前已有的简单模型,在运行时间和程序输入参数之间的关系比较复杂时不会失效,可以得到准确的预测结果。同时,两层模型的训练和预测不需要任何专家知识,也无需对特征进行处理,可以对整个训练预测流程进行自动化。
技术领域
本发明涉及程序运行时间预测技术领域,尤其涉及一种基于历史运行数据预测并行程序运行时间的方法。
背景技术
并行程序的运行时间预测在高性能计算领域发挥着重要作用。准确的预测模型可以帮助用户更合理的申请计算资源,帮助超级计算机系统更高效的进行任务调度和资源分配。如何对并行程序的运行时间进行准确的预测一直是高性能计算领域的关注热点。
目前对于并行程序运行时间的预测方法主要有以下三种:
1)基于模拟的方法通过模拟器模拟并行程序的执行预测其运行时间。这种方法一般需要在较小规模的机器上模拟较大规模的运行情况,因此时间的开销相对较大。虽然一些研究人员提出了如确定性重放、骨架程序等降低模拟时间开销的技术,但是该方法的适用范围依然受到很大限制。其主要原因是每当需要预测一个新任务时,都要对其运行情况进行模拟。因此该方法一般用于目标机器不存在的情况。
2)基于解析的方法通过对并行程序本身以及一些运行时特征进行人工分析,建立程序运行时间的解析模型。这种方法得到的模型在一定程度上兼顾了准确性和可移植性,但是这种方法对建模人员的要求非常高,为了建立一个并行程序的解析模型,通常需要数学、并行计算及并行程序本身涉及的领域等相关的专业知识。在并行计算系统和并行程序都越来越复杂的情况下,解析方法只适用于使用范围较广和使用频率较高的特定计算核心部分。
3)基于统计的方法通过对并行程序的运行数据进行分析,来建立程序运行时间的模型。运行数据可以是待预测任务程序的历史运行数据,也可以是从待预测任务程序中抽取的骨架程序,对待预测任务程序进行插桩得到的程序,基准测试程序等等的运行数据。基于统计的方法一般需要大量的数据,其主要开销来自于采集合适足够的运行数据。统计方法一般不需要并行程序本身涉及的相关领域的专家知识,并且模型构建后,对并行程序运行时间的预测开销很小。
由于在实际系统中,用户通常不会对运行的并行程序进行骨架程序抽取、插桩等操作,因此基于历史运行数据的运行时间预测十分重要。在某些情况下,例如机器需要扩展,我们只有并行程序在较小规模情形下的历史运行数据,而需要预测其在较大规模下的运行时间。目前针对这个问题一般建立一些例如线性回归、对数回归等较为简单的模型,保证模型在只有小规模数据的外推(extrapolation)能力,可以对大规模的运行时间进行一定程度上的预测。其主要原因是过于复杂的模型如随机森林,神经网络等模型在历史运行数据样本空间内拟合较为复杂的函数,导致其在内推(interpolation)即预测程序输入在历史运行数据样本空间内的运行时间时,一般可以取得很好的效果,但是当程序进行外推即输入超出了历史运行的数据样本空间时,其预测准确度会很低。然而并行程序实际的运行时间和输入之间的关系一般比较复杂,导致较为简单的模型一般难以得到较为准确的预测结果。因此需要一种可以通过小规模历史运行数据对大规模运行数据进行更准确地预测的模型。
发明内容
本发明的目的是提供一种基于历史运行数据预测并行程序运行时间的方法,可以通过小规模机器上历史运行数据对大规模机器上运行数据进行准确地预测。
本发明的目的是通过以下技术方案实现的:
一种基于历史运行数据预测并行程序运行时间的方法,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010323618.7/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置