[发明专利]故障诊断方法在审
申请号: | 201711402304.0 | 申请日: | 2017-12-21 |
公开(公告)号: | CN109947605A | 公开(公告)日: | 2019-06-28 |
发明(设计)人: | 孙国臣;杨存永;詹克团 | 申请(专利权)人: | 北京比特大陆科技有限公司 |
主分类号: | G06F11/22 | 分类号: | G06F11/22;G06F13/40 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 王洵 |
地址: | 100029 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 节点芯片 芯片地址 工作状态查询 数据处理装置 故障诊断 匹配 发送工作状态 返回寄存器 寄存器数据 查询命令 串联节点 快速故障 有效实现 芯片组 转发 诊断 返回 | ||
本发明公开了一种故障诊断方法。所述方法包括:向数据处理装置的节点芯片发送工作状态查询命令;数据处理装置的各节点芯片依次转发工作状态查询命令;判断各节点芯片的芯片地址是否与工作状态查询命令中指定的芯片地址相匹配;若节点芯片的芯片地址与工作状态查询命令中指定的芯片地址相匹配,返回寄存器数据;根据节点芯片返回的寄存器数据,判断节点芯片的工作状态。本发明实施例能够有效实现串联节点芯片组的快速故障诊断。
技术领域
本发明涉及数据处理技术领域,特别是涉及一种故障诊断方法。
背景技术
目前,随着机器学习尤其是深度学习技术在各领域的应用和发展,对计算装置的数据处理能力提出了更高的要求。GPU处理芯片因为其优于传统CPU的强大的图形处理和并行运算能力,已广泛应用于各领域的数据运算任务,成为通用的深度学习计算平台。
然而,单一GPU架构的计算能力仍然受限,无法满足深度学习、哈希运算等对高强度的数据计算能力的需求。为此,申请号为CN201610312586.4的中国发明专利申请提出了一种扩展数据处理装置的运算能力的方案,如图1所示。该方案提出了一种由多个节点芯片串联连接的数据处理装置,该数据处理装置经由位于下行通信方向的首节点芯片的外部接口接收数据处理任务,通过串行连接的各级节点芯片对数据处理任务进行运算处理,并通过首节点芯片的外部接口返回数据处理结果。该方案中节点芯片的数量可以根据数据处理任务的运算能力需求进行扩展,并且只需要一个节点芯片与外部设备进行通信连接,不占用外部设备的通信接口,因此,可以提供较强的易于扩展的数据处理能力。
虽然上述现有技术将节点芯片串联连接,每个节点芯片都负责一部分计算处理,加快了数据处理速度,但是各节点芯片之间进行数据发送很容易产生冲突。并且,该数据处理装置接收外部设备传输的数据处理任务,需要在各节点芯片之间分配数据处理任务,如何在多个节点芯片之间分配任务以减少信令的交互也是需要考虑的问题。此外,在串联的各节点芯片处理同一数据处理任务时,可能存在某个节点芯片发生宕机的故障情况,从而造成整个节点芯片组无法正常工作,如何快速进行节点芯片的故障诊断也是需要解决的问题。
发明内容
为了解决上述问题,本发明提出一种故障诊断方法。
根据本发明的一方面,提出一种故障诊断方法,所述故障诊断方法应用于具有多个依次串联连接的节点芯片的数据处理装置,所述方法包括如下步骤:
向所述数据处理装置的节点芯片发送工作状态查询命令;
所述数据处理装置的各节点芯片依次转发所述工作状态查询命令;
判断各节点芯片的芯片地址是否与所述工作状态查询命令中指定的芯片地址相匹配;
若节点芯片的芯片地址与所述工作状态查询命令中指定的芯片地址相匹配,返回寄存器数据;
根据节点芯片返回的寄存器数据,判断节点芯片的工作状态。
可选地,所述根据节点芯片返回的寄存器数据,判断节点芯片的工作状态,包括:
若检测发现未接收到与所述工作状态查询命令中指定的芯片地址相匹配的节点芯片返回的寄存器数据,则判断该节点芯片发生故障。
根据本发明的另一方面,提出一种故障诊断方法,所述故障诊断方法应用于具有多个依次串联连接的节点芯片的数据处理装置,所述方法包括如下步骤:
向所述数据处理装置的节点芯片发送工作状态查询命令;
所述数据处理装置的各节点芯片依次转发所述工作状态查询命令;
判断所述工作状态查询命令是否指定了查询全部节点芯片的工作状态;
若所述工作状态查询命令指定了查询全部节点芯片的工作状态,各节点芯片依次返回寄存器数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京比特大陆科技有限公司,未经北京比特大陆科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711402304.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于检测储存装置的管理系统
- 下一篇:一种对接测试多种HIS系统接口的方法