[发明专利]一种高性能集群的紧急作业续算方法以及系统有效
申请号: | 201710670787.6 | 申请日: | 2017-08-08 |
公开(公告)号: | CN107577547B | 公开(公告)日: | 2020-11-27 |
发明(设计)人: | 都政;李志伟;刘建文;井革新;陈远磊;饶青雷 | 申请(专利权)人: | 国家超级计算深圳中心(深圳云计算中心);深圳云计算中心有限公司 |
主分类号: | G06F11/07 | 分类号: | G06F11/07 |
代理公司: | 深圳市顺天达专利商标代理有限公司 44217 | 代理人: | 李琴 |
地址: | 518055 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 性能 集群 紧急 作业 方法 以及 系统 | ||
一种高性能集群的紧急作业续算方法以及模块,方法包括:S100、实时监控提交任务的输出日志文件直至任务完成,在监控过程中如计算中断则抓取报错关键词进入下一个步骤;S200、基于当前抓取到的报错关键词执行修正续算,如修正续算的过程中报错中断,则判断本次计算中断后的修正续算的次数是否超过预设次数,如果没超过,则抓取新产生的报错关键词,基于新抓取到的报错关键词再次执行修正续算;S300、如确认算例文件已完成修正,则重新提交任务,重新提交任务后跳转至步骤S100继续监控提交任务的输出日志文件。本发明实现了高性能集群系统使用功能上的拓展,实现了集群用户遇到的常见错误的快速修正,降低时间成本。
技术领域
本发明涉及高性能计算领域,尤其涉及一种高性能集群的紧急作业续算方法以及系统。
背景技术
高性能集群计算系统因其具有强大的运算能力、较高的I/O性能、高性能管理和较强的系统扩展能力而广受关注。高性能计算主要面向挑战性的科学与工程问题,例如飞行器设计、气象预报、全球气候变化模拟、核聚变模拟、新材料设计、药物设计以及人类基因组等。高性能计算主要采用数值模拟的方法,即科学发现的第三范式。如:药物设计则是使用分子动力学方法对大量的药物分子进行筛选,计算候选药物对特定靶点的活性,筛选其中活性较高的药物再进入实验筛选。
可以看出,高性能计算是对需求解的科学或工程的复杂问题进行展开的。由于系统的复杂性,作业的计算规模和计算成本是很大的,尤其是时间成本。目前针对中途运行中断或报错的计算任务,需要用户自行发现后,进行手动测试调整,这极大地增加了计算任务的时间成本,影响项目进度。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种高性能集群的紧急作业续算方法以及系统。
本发明解决其技术问题所采用的技术方案是:构造一种高性能集群的紧急作业续算方法,方法包括:
S100、实时监控提交任务的输出日志文件直至任务完成,在监控过程中如计算中断则抓取报错关键词进入下一个步骤;
S200、基于当前抓取到的报错关键词执行修正续算,具体包括:根据报错关键词在共享库中进行检索,根据检索结果与报错关键词的匹配度进行优先级从高到底的排序,选取优先级最高的检索结果进行算例的修正;
S300、如确认算例文件已完成修正,则重新提交任务,重新提交任务后跳转至步骤S100继续监控提交任务的输出日志文件。
较佳的,所述方法还包括:如修正续算的过程中报错中断,则判断本次计算中断后的修正续算的次数是否超过预设次数,如果没超过,则抓取新产生的报错关键词,基于新抓取到的报错关键词再次执行修正续算;如果超过,则结束方法;
其中,所述的基于新抓取到的报错关键词再次执行修正续算具体包括:基于新抓取到的报错关键词再次执行修正续算:如此次的报错关键词与上一次抓取的报错关键词一致,则选取优先级仅次于上一次修正续算所采用的检索结果的检索结果进行算例的修正;如此次的报错关键词与上一次抓取的报错关键词不一致,则根据此次的报错关键词在共享库中进行检索,根据检索结果与此次的报错关键词的匹配度进行优先级从高到底的排序,选取优先级最高的检索结果进行算例的修正。
较佳的,所述方法还包括:在每一次修正续算完成或者中断后,将包含修正续算过程的日志信息记录在自动续算日志文件中。
较佳的,步骤S100之前还包括以下条件步骤:在作业脚本中设置用于触发紧急作业续算的自动续算关键词,作业计算程序在发现该自动续算关键词后启动步骤S100。
本发明还要求保护一种高性能集群的紧急作业续算模块,包括监控模块、管理模块、脚本修正模块、共享库;
监控模块,用于实时监控提交任务的输出日志文件直至任务完成,在监控过程中如计算中断则抓取报错关键词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家超级计算深圳中心(深圳云计算中心);深圳云计算中心有限公司,未经国家超级计算深圳中心(深圳云计算中心);深圳云计算中心有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710670787.6/2.html,转载请声明来源钻瓜专利网。