[发明专利]一种基于有限状态机的GPU故障管理方法有效
申请号: | 201711202637.9 | 申请日: | 2017-11-24 |
公开(公告)号: | CN108021463B | 公开(公告)日: | 2021-07-16 |
发明(设计)人: | 马城城;刘晖;聂曌 | 申请(专利权)人: | 中国航空工业集团公司西安航空计算技术研究所 |
主分类号: | G06F11/07 | 分类号: | G06F11/07;G06F11/30 |
代理公司: | 中国航空专利中心 11008 | 代理人: | 王中兴 |
地址: | 710000 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 有限状态机 gpu 故障 管理 方法 | ||
本发明属于计算机图形领域,尤其涉及一种基于有限状态机的GPU故障管理方法。本方法基于以下设备和模块实现:图形处理设备、状态获取模块、故障决策模块、故障处理模块。本方法通过采集/主动上报图形处理器中各个单元模块的故障信息,采用分布式感知、集中决策的策略,实现图形处理器基于有限状态机的故障管理。
技术领域
本发明属于计算机图形领域,尤其涉及一种基于有限状态机的GPU故障管理方法。
背景技术
由于GPU系统的复杂性及超长流水结构,图形设备常常面临着不可预期的故障,因此故障管理与诊断成为系统管理的核心组成部分。目前公开研究的图形处理中,未发现有针对GPU故障管理的相关内容。
发明内容
本发明的目的是:本发明主要提供一种基于有限状态机的GPU故障管理方法,保证图形设备在出现故障时能准确定位,快速解决,保障系统运行的稳定。
本发明的解决方案是:
一种基于有限状态机的GPU故障管理方法,所述方法基于以下设备或模块实现:图形处理设备1、状态获取模块2、故障决策模块3、故障处理模块4;
所述图形处理设备1,包括图形处理的若干个功能单元,其功能单元配合进行图形流水操作,完成图形任务处理过程;
所述状态获取模块2,包括主动上报和状态采集两种获取方式,采用分布式感知的方法,在图形处理设备1的功能单元分布感知点,收集该单元的运行状态,并上报给故障决策模块3;
所述故障决策模块3,包括统一决策单元和故障量化单元两部分,故障量化单元接收状态获取模块2发送的运行状态信息,根据运行状态及当前的系统配置信息,对该运行状态信息进行量化,采用有限状态机方式给出相应的故障等级,并发送结果到统一决策单元,统一决策单元根据所有功能单元上报的故障信息进行统一决策,交由故障处理模块4进行处理;
所述故障处理模块4,根据故障决策模块3发送的故障等级,生成相应的故障处理事件,交由图形处理设备1的各功能单元进行故障处理。
本发明的优点是:本发明提供的一种基于有限状态机的GPU故障管理方法,分布式感知故障,采用层次化集中决策方法,将故障按照有限状态进行分类,上报当前的系统运行状态,决策单元进行决策后,进行故障处理。
附图说明
图1为本发明基于有限状态机的GPU故障管理方法的模块及流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
下面结合附图和具体实施例对本发明的技术方案做进一步详细描述。
如图1所示,一种基于有限状态机的GPU故障管理方法,所述方法基于以下设备或模块实现:图形处理设备1、状态获取模块2、故障决策模块3、故障处理模块4;
所述图形处理设备1,包括图形处理的若干个功能单元,如顶点处理单元、几何处理单元、光栅化单元、统一染色阵列单元、存储单元等,其功能单元配合进行图形流水操作,完成图形任务处理过程;
所述状态获取模块2,包括主动上报和状态采集两种获取方式,主动上报可采用中断方式,如当功能单元产生故障信息时产生中断,报告当前状态,状态采集可采用周期采集各模块的状态信息的方式。采用分布式感知的方法,在图形处理设备1的功能单元分布感知点,收集该单元的运行状态,并上报给故障决策模块3;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国航空工业集团公司西安航空计算技术研究所,未经中国航空工业集团公司西安航空计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711202637.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:光源装置、光源单元和投影仪
- 下一篇:作为碱活化粘结剂的分散剂的嵌段共聚物