[发明专利]一种高性能计算应用的性能监测系统在审
申请号: | 202010633496.1 | 申请日: | 2020-07-02 |
公开(公告)号: | CN111813626A | 公开(公告)日: | 2020-10-23 |
发明(设计)人: | 冯景华;刘光明;李宇奇;谭昕雨;徐斌;张健 | 申请(专利权)人: | 国家超级计算天津中心 |
主分类号: | G06F11/30 | 分类号: | G06F11/30;G06F11/34 |
代理公司: | 北京锺维联合知识产权代理有限公司 11579 | 代理人: | 黄利萍;原春香 |
地址: | 300457 天津市经济*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 性能 计算 应用 监测 系统 | ||
1.一种高性能计算应用的性能监测系统,其特征在在于,包括:
数据采集客户端,用于实时采集一个或多个集群上的高性能计算应用的性能指标数据;
数据收集服务器,用于从所述数据采集客户端获取所述性能指标数据,并存储至数据存储服务器中;
数据存储服务器,用于存储所述性能指标数据;
作业信息获取模块,部署在每一所述集群的边界节点上,用于获取一个或多个待监测作业的作业信息,并根据所述作业信息从所述数据存储服务器中获取所述待监测作业对应的目标性能指标数据,其中,所述作业是指应用运行的一次过程,每一所述作业由对应集群中的多个节点执行,所述作业信息包括作业id、作业对应的集群id,作业对应的应用信息、作业的起始时间信息;
监测结果确定模块,用于基于所述待监测作业对应的目标性能指标数据,确定单个作业的监测结果,或者确定多个作业的监测结果,所述多个作业为不同集群的同类作业、同集群的不同作业、同集群的同类作业或不同集群的不同作业。
2.根据权利要求1所述的系统,其特征在在于,
所述数据采集客户端以毫秒级随机时间间隔采集数据,所述数据收集服务器以预设的时间间隔访问所述数据采集客户端的数据接口,获取所述性能指标数据。
3.根据权利要求1所述的系统,其特征在在于,
所述数据存储服务器采用三级存储方式来存储所述性能指标数据,包括:
第一数据存储单元,设置在所述数据收集服务器内存中,用于存储第一预设时间内的性能指标数据;
第二数据存储单元,部署在近端,用于存储大于所述第一预设时间小于第二预设时间内的性能指标数据;
第三数据存储单元,部署在远端,用于存储超过所述第二预设时间内的性能指标数据。
4.根据权利要求3所述的系统,其特征在在于,
所述第一数据存储单元、第二数据存储单元和第三数据存储单元均为以时序数据的形式存储所述性能数据。
5.根据权利要求1所述的系统,其特征在在于,
所述性能指标数据包括:系统指标数据、物理参数指标数据、计算指标数据和文件系统指标数据。
6.根据权利要求1所述的系统,其特征在在于,
所述监测结果确定模块包括第一性能监测单元,用于基于单个待监测作业对应的目标性能指标数据确定所述单个作业的监测结果,具体采用改进多层级roofline折线图、雷达图、时序图或节点热力图的方式确定所述单个作业的监测结果。
7.根据权利要求6所述的系统,其特征在在于,
当所述第一性能监测单元采用改进多层级roofline折线图监测单个作业时,具体用于:
分别采用算力与访存带宽和算力与文件系统访问带宽的关系对单个作业进行监测,设定算力为π,访存带宽为β,访问带宽为γ,则访存计算强度上限为:
文件系统计算强度上限为:
当小于访存计算强度上限Immax时,则判断所述访存带宽导致的应用性能受限;
当小于文件系统计算强度上限Ifmax时,则判断所述访问带宽导致的应用性能受限;
当大于等于访存计算强度上限Immax时,则判断所述算力导致应用性能受限;
当大于等于文件系统计算强度上限Ifmax时,则判断所述算力导致应用性能受限。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家超级计算天津中心,未经国家超级计算天津中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010633496.1/1.html,转载请声明来源钻瓜专利网。