[发明专利]基于调试日志的并行程序错误定位方法有效
申请号: | 201910904061.3 | 申请日: | 2019-09-24 |
公开(公告)号: | CN112631816B | 公开(公告)日: | 2022-11-15 |
发明(设计)人: | 刘勇;王敬宇;冯赟龙;陈华蓉;宋佳伟;彭达佳;孙川;罗威;张威;梁艳 | 申请(专利权)人: | 无锡江南计算技术研究所 |
主分类号: | G06F11/07 | 分类号: | G06F11/07 |
代理公司: | 苏州创元专利商标事务所有限公司 32103 | 代理人: | 王健 |
地址: | 214083 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 调试 日志 并行 程序 错误 定位 方法 | ||
本发明公开了一种基于调试日志的并行程序错误定位方法,基于异构众核处理器,包括以下步骤:S1:将基于调试日志的错误定位装置插装进消息传递的并行运行时库中;S2:当程序挂住时发出通知,执行应用感知;S3:综合调试日志,定位异类进程:A1:分析pi的Nr队列;A2:如果存在一个Nr:pj→pi,则以pj为新的切入点,查找Ns:pj→pi;A3:如果发现匹配的Ns,即判断通信挂起的原因为该消息未成功发送;A4:如果未发现匹配的Ns,则继续检查pi的Nr队列,查找Ur;A5:直到pi的Nr队列全部检查;S4:输出错误定位报告。本发明在实现具有大规模问题的并行程序的错误定位的同时,显著加快了大规模并行程序通信死锁的定位。
技术领域
本发明属于异构众核处理器优化技术领域,尤其涉及一种基于调试日志的并行程序错误定位方法。
背景技术
HPC领域中,并行程序设计广泛采用消息传递编程模型(MPI),用户根据任务分解的要求手工编写各种通信模式,以实现并行任务间的数据迁移。在并行执行时间短、规模小的情况下,出错节点和出错时间相对固定,用户可以运行调试工具选点调试,可以在程序中不断添加打印、反复运行程序逼近错误。但是随着应用问题的规模增大,并行程序的执行时间长,规模增加到几百或数千个处理器规模,这时经典的调试方法就非常低效,而且耗费大量计算资源。
调试日志技术是一种常用的错误定位方法,现有技术中有手工的调试日志,即采用人工添加打印,记录某一过程的动态步骤,也有的通过通信库的插装,在消息的发送方和接收方产生每一次通信的事件记录,运行出错后再人工分析错误发生前的记录。然后,现有技术创建的调试日志有两个主要缺陷:1)缺乏针对性,记录了大量的无关事件,产生了巨量的存储开销和运行时干扰,2)诊断结果模糊,巨量的事件记录增加了错误诊断的复杂度和计算开销。对应用问题规模小或者通信模式简单的并行程序,其错误定位效果较好,但是不适合应用于问题规模大的并行程序。
发明内容
本发明目的在于提供一种基于调试日志的并行程序错误定位方法,该并行程序错误定位技术不仅解决了具有大规模问题的并行程序的错误定位的问题,还解决了现有定位技术开销大、定位效果差的问题。
为达到上述目的,本发明采用的技术方案是:一种基于调试日志的并行程序错误定位方法,基于异构众核处理器,包括以下步骤:
S1:在消息传递的并行运行时库中插装错误定位装置:
通过标准的编译器和连接器、采用弱符号技术,将基于调试日志的错误定位装置,即错误定位库连接至并行程序可执行文件中,并使并行程序进行消息传递初始化时,分配空间存储调试日志信息;
S2:当程序挂住时发出通知,执行应用感知:
在程序运行时,用户通过输出信息的停顿或重复,判断程序挂住,此时,用户通过错误定位装置提供的命令,向运行该并行程序的所有节点发出通知,使运行该程序的所有并行进程共同执行S1中插装的错误定位库,该错误定位库从进程空间中获取消息队列、函数调用、底层硬件信息,并创建调试日志文件;
S3:综合调试日志,定位异类进程:
设并行程序有进程p1,p2,……,pn-1,每个进程的函数调用层数不同,但是都起源于主函数main,首先找到进程pi的函数调用栈的main,设为fi,0,然后顺着调用关系,比较一层调用,即fi,1,i=1,2,……,n-1,可分为不同和相同两个进程集,以此类推,逐步细分为m个进程集:S0,S1,……,Sm-1;
其中,比较条件为只要调用函数相同,忽略调用的具体行号不同;
对集合中进程数量按升序排列,从进程数最小的集合S0开始,取其中一个进程pi为切入点,以该进程的未完成的接收消息,寻找通信依赖关系,设未完成接收为Nr,未完成发送Ns,意外接收为Ur,检查包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于无锡江南计算技术研究所,未经无锡江南计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910904061.3/2.html,转载请声明来源钻瓜专利网。