[发明专利]一种异构芯片的监控方法、装置、设备和介质在审
申请号: | 202111641730.6 | 申请日: | 2021-12-29 |
公开(公告)号: | CN114328112A | 公开(公告)日: | 2022-04-12 |
发明(设计)人: | 张家华 | 申请(专利权)人: | 苏州浪潮智能科技有限公司 |
主分类号: | G06F11/30 | 分类号: | G06F11/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 郄晨芳 |
地址: | 215100 江苏省苏州市吴*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 芯片 监控 方法 装置 设备 介质 | ||
本申请实施例公开了一种异构芯片的监控方法、装置、设备和计算机可读存储介质,获取每个节点包含的异构芯片的芯片类型;不同芯片类型其对应的指标信息有所差异,为了实现对不同异构芯片的规范化管理,在配置文件中可以包含每种芯片类型对应的指标类型以及每个指标类型对应的生成方式。在确定出芯片类型之后,可以基于芯片类型,从设定的配置文件中确定出对应的指标类型;按照配置文件中记录的各所述指标类型的生成方式,可以得到各异构芯片对应的指标信息;调用设定的监控告警规则对指标信息进行分析,以得到监测结果。按照配置文件中包含的指标类型以及生成方式,可以实现对不同异构芯片的规范化处理,降低了异构芯片的管理难度。
技术领域
本申请涉及集群管理技术领域,特别是涉及一种异构芯片的监控方法、装置、设备和计算机可读存储介质。
背景技术
随着Kubernetes的热度不断升高,越来越多的厂商开始基于Kubernetes做集群管理、应用部署以及不同维度的监控告警。云原生社区中也有各种各样的指标采集工具,方便使用者可以直接暴露指标以供Prometheus采集,但是对于异构芯片的监控如何对接到Prometheus Server中还是空白的。
目前主流的方式是由异构芯片厂商提供对应的exporter暴露指标,比如:NVIDIADCGM-EXPORTER。但是这种方式对于研发人员来说学习以及开发成本较高,在多异构芯片的场景下,每个节点的异构芯片的种类都是不一样的,采用现有的技术方案就要求每个芯片厂商定制开发将需要暴露的指标写到prom文件中,增加了芯片厂商的开发量。并且随着接入的芯片越来越多,整个监控系统也会显得繁重。
可见,如何降低异构芯片的管理难度,是本领域技术人员需要解决的问题。
发明内容
本申请实施例的目的是提供一种异构芯片的监控方法、装置、设备和计算机可读存储介质,可以降低异构芯片的管理难度。
为解决上述技术问题,本申请实施例提供一种异构芯片的监控方法,包括:
获取每个节点包含的异构芯片的芯片类型;
基于所述芯片类型,从设定的配置文件中确定出对应的指标类型;
按照所述配置文件中记录的各所述指标类型的生成方式,得到各所述异构芯片对应的指标信息;
调用设定的监控告警规则对所述指标信息进行分析,以得到监测结果。
可选地,所述按照所述配置文件中记录的各所述指标类型的生成方式,得到各所述异构芯片对应的指标信息包括:
在所述指标类型为直接获取型指标的情况下,调用所述配置文件中与所述指标类型对应的指令,以获取指标信息;
在所述指标类型为计算型指标的情况下,按照所述配置文件中所述指标类型对应的处理规则,计算得到指标信息。
可选地,所述监控告警规则包括有各所述指标信息对应的正常范围以及告警方式;
所述调用设定的监控告警规则对所述指标信息进行分析,以得到监测结果包括:
判断各所述指标信息是否属于其对应的正常范围内;
当存在不属于正常范围的异常指标信息时,依据所述异常指标信息对应的告警方式,通过推理平台进行告警提示。
可选地,在所述按照所述配置文件中记录的各所述指标类型的生成方式,得到各所述异构芯片对应的指标信息之后还包括:
将各所述异构芯片对应的指标信息存储至Prometheus服务器。
可选地,还包括:
将异构芯片厂商对应的指标标识发送至推理平台,以便于所述异构芯片厂商基于所述推理平台查询异构芯片对应的指标信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州浪潮智能科技有限公司,未经苏州浪潮智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111641730.6/2.html,转载请声明来源钻瓜专利网。