[发明专利]并行计算机及其控制方法有效
申请号: | 201310606714.2 | 申请日: | 2013-11-25 |
公开(公告)号: | CN103838551A | 公开(公告)日: | 2014-06-04 |
发明(设计)人: | 井原宣孝 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06F9/38 | 分类号: | G06F9/38 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 朱胜;穆云丽 |
地址: | 日本神*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 并行 计算机 及其 控制 方法 | ||
相关申请的交叉引用
本申请基于2012年11月27日提交的在先日本专利申请第2012-258186号,并且要求该在先日本专利申请的优先权的权益,该在先日本专利申请的全部内容通过引用并入于此。
技术领域
本发明涉及一种用于控制并行计算机的技术。
背景技术
已知障碍同步(barrier synchronization)是一种用于对由并行计算机中的多个计算节点所执行的处理进行同步的方法。在此,计算节点是并行计算机中执行计算处理的部分,并且计算节点包括作为处理器的中央处理器单元(CPU)或作为处理单元的处理器内核。通过由每个计算节点在用于作业(job)的程序中的预定位置处调用障碍函数(function)而使得障碍同步变为可能。例如,在使用消息传递接口(MPI)库的情况下,可以通过在用于作业的程序中调用MPI_Barrier函数来实现障碍同步。在并行计算机中的所有计算节点都确认完成障碍同步之前,计算节点中的每个不能使得用于作业的程序的执行前进。
已知以下用于在并行计算机中执行用于作业的程序的技术。更具体地,在并行计算机中,基于对于共享存储器的访问历史来执行用于程序的再次执行的同步。在那之后,采用基于记录信息所再现的共享存储器和处理器状态信息、从检查点起再次执行程序。
然而,未建立如下技术:在该技术中,在正执行障碍同步的并行计算机中,临时地停止作业,然后稍后重新启动该作业。当在障碍同步的执行期间停止作业时,存在如下可能性:作业重新启动之后将不会适当地执行障碍同步,因此将停止作业的前进。因此,当在障碍同步的执行期间存在来自用户的停止作业的指令时,存在如下问题:不可以立即停止作业,并且停止作业将被搁置直至障碍同步完成。
发明内容
与本发明有关的一种控制方法是由并行计算机中所包括的多个节点之中的第一节点所执行的。然后,该控制方法包括:(A)当检测到在多个节点中的每个中停止了用于作业的程序的执行时,从多个节点中的每个收集与障碍同步的进展状态有关的信息;以及(B)基于在第一节点中用于作业的程序的停止位置和从多个节点中的每个所收集的信息,对在第一节点中用于作业的程序的重新启动位置进行第一确定。
将借助于在权利要求中具体地指出的要素和组合来实现并且获得实施例的目的和优点。
将理解,如所要求保护的,前述的一般描述和下面的详细描述两者均是示例性的和说明性的,并且不是对实施例的限制。
附图说明
图1是描述障碍同步的进展的示例的图;
图2是描述在本实施例中的系统的概要的图;
图3是说明在计算节点中所执行的程序的图;
图4是描述用于确定用于作业的程序的重新启动位置的处理的处理流程的图;
图5是描述在数据存储单元中所存储的数据的示例的图;
图6是描述在数据存储单元中所存储的数据的示例的图;
图7是说明在MPI_Barrier函数中所调用的函数的图;
图8是说明重新启动位置的确定的图;
图9是描述用于确定用于作业的程序的重新启动位置的处理的处理流程的图;
图10是说明重新启动的确定的图;
图11是说明用于作业的程序的停止位置与重新启动位置之间的关系的图;
图12是说明用于作业的程序的停止位置与重新启动位置之间的关系的图;
图13是说明用于作业的程序的停止位置与重新启动位置之间的关系的图;
图14是说明用于作业的程序的停止位置与重新启动位置之间的关系的图;
图15是说明用于作业的程序的停止位置与重新启动位置之间的关系的图;以及
图16是说明用于作业的程序的停止位置与重新启动位置之间的关系的图。
具体实施方式
在并行计算机的通信中,存在点对点数据通信(在此,其包括集合通信(collective communication))和当执行障碍同步时所使用的一对多通信。在点对点数据通信中,诸如MPI库的通信库可以确认另一方是否接收到所传送的数据。因此,通过在确认另一方接收到数据执行后执行停止作业的处理并且将该停止位置设置为重新启动位置,在重新启动作业后执行通信而不会发生问题。另一方面,当在一对多通信中执行障碍同步时,通信库能够确认障碍同步的起始和终止,然而,通信库不能确认障碍同步已经进展了多少(换言之,进行中的障碍同步的处理)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310606714.2/2.html,转载请声明来源钻瓜专利网。