[发明专利]基于主动学习的降低性能建模开销的方法有效
申请号: | 202010322601.X | 申请日: | 2020-04-22 |
公开(公告)号: | CN111523685B | 公开(公告)日: | 2022-09-06 |
发明(设计)人: | 孙广中;张杰鹏;孙经纬 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G06F30/27 | 分类号: | G06F30/27;G06N20/00;G06K9/62 |
代理公司: | 北京凯特来知识产权代理有限公司 11260 | 代理人: | 郑立明;韩珂 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 主动 学习 降低 性能 建模 开销 方法 | ||
本发明公开了一种基于主动学习的降低性能建模开销的方法,通过把信息量作为预测性能值的权重,并进行更为精细的划分,将参数样本选择缩放到合适的范围,使得性能好或者信息量丰富的参数样本都有被选择的机会,以实现借助主动学习的查询策略,进一步降低建模的时间和计算开销的目标。
技术领域
本发明涉及程序性能建模技术领域,尤其涉及一种基于主动学习的降低性能建模开销的方法。
背景技术
程序性能建模(PerformanceModeling),目的是建立机器配置、系统参数、程序及其输入等,到程序性能如运行时间的关系,已有建模方法主要包括人工分析、模拟、经验建模等。其中,人工分析方法(AnalyticalModeling)需要建模专家和领域专家共同对程序进行人工分析以得到解析模型,但领域知识和人工分析会带来大量的人力和时间开销,因此这种方法只适用于意义重大或使用广泛的应用;在模拟方法(Simulation)中,人们使用软件来模拟运行环境以记录和分析更加精细的运行行为,但其缓慢的模拟过程是难以忍受的;经验建模方法(EmpiricalModeling)是指从数据中自动学习程序输入到性能的关系,而不需要领域知识、人工等昂贵的稀缺资源,因此可以广泛应用于多种场景,例如程序优化、资源选择、任务调度等。下面将详细介绍经验建模的相关工作。
Gibbons等人认为,在COW(Cluster Of Workstations)环境中,用户提交的作业可以根据属性(如可执行程序名字、用户名、申请的处理器个数等)划分为不同的类别,同一类别具有相似的执行时间,并基于这种假设在调度系统LSF中实现了性能预测模块,在一定程度上减少了作业平均等待时间。相比于Gibbons使用的与性能没有明确的因果关系的作业属性,后来的研究则使用与性能有直接或间接的因果关系的参数,例如机器配置、系统参数、程序输入等。Ipek等人在LLNL国家实验室使用神经网络模型自动学习SMG程序的输入和运行时间的关系,其中,程序的输入是在输入空间中随机均匀采样得到。由于某些程序的输入无法直接作为学习算法的输入,Leyton-Brown等人给出了一些特征抽取方面的建议,例如特征的抽取应当适用于所有输入,而且特征抽取过程的时间复杂度应当是低阶多项式等。在特征抽取方面,Hunter等人为广泛研究的NP-Hard问题(SAT、MIP、TSP)提出了明确并且适用于所有学习模型的新特征,如问题规模特征(例如变量个数)、图的特征(例如节点度的统计数据)等。相比于把程序的输入直接作为特征或者从输入中抽取特征,Huang等人在程序输入的基础上,通过对程序进行插桩,引入了运行时特征,例如循环次数、分支次数、变量赋值等。此外,与直接建立特征到性能模型的方法不同,Hoste等人使用基准程序套件(BenchmarkSuite)的数据来预测目标程序的性能,具体方法是把(基准程序和目标程序)独立于微架构的特征(Micro-architecture Independent Characteristics)转化到基准空间(BenchmarkSpace)中,基准空间中的距离表示程序的相似度,则目标程序的性能,可以通过目标程序在基准空间中的位置附近邻居的基准程序的性能进行加权平均得到。
以上经验建模方法中,参数空间的采样策略,大多是随机均匀采样或者从输入分布中采样,随机选取的数据,相比于精心挑选的数据,在一定程度上存在信息冗余,从而在随机采样策略下,学习算法需要更多的数据来建立模型。数据中每一个样本通常需要一次甚至多次完整地运行程序,更多的数据意味着更多次的运行程序,从而带来了大量的时间和计算资源开销。因此,减少参数空间的采样数量以及寻找更合理的采样策略,可以作为减少建模开销的一种手段。Balaprakash等人在程序性能调优的场景中,首次使用主动学习技术,迭代地从参数空间中选择当前信息量最大的样本,权衡了ALC和性能指标(其中ALC是指选择对输入空间中平均方差约减最多的样本),在相同样本数量下,基于主动学习的方法普遍要好于随机均匀采样的方法。后来,Nelson等人同样使用主动学习来进行高效的GPU代码转换,Ogilvie等人使用主动学习来降低迭代编译过程的高昂开销。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010322601.X/2.html,转载请声明来源钻瓜专利网。