[发明专利]一种分布式深度学习运维系统在审
申请号: | 201710549550.2 | 申请日: | 2017-07-07 |
公开(公告)号: | CN107480027A | 公开(公告)日: | 2017-12-15 |
发明(设计)人: | 庞子龙;李震川;王子剑;陈龙;严武;曹磊 | 申请(专利权)人: | 上海诺悦智能科技有限公司 |
主分类号: | G06F11/30 | 分类号: | G06F11/30;G06F11/32 |
代理公司: | 北京联瑞联丰知识产权代理事务所(普通合伙)11411 | 代理人: | 郑自群 |
地址: | 201800 上海市嘉定区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分布式 深度 学习 维系 | ||
技术领域
本发明涉及监控分析系统技术领域,尤其涉及一种分布式深度学习运维系统。
背景技术
现有技术目前对各信息系统及网络情况有告警监控,集团信息系统主要通过信息运维综合监管平台(IMS)监控告警,服务器主机通过主机监控系统进行监控告警,数据中心机房环境通过环控系统进行监控告警,网络通过告警系统监控告警,SAP业务系统通过OCC进行监控告警,但总体各监控系统还比较分散,未进行集成整合,同时也缺乏自动化的故障分析定位,故障分析和形成知识库和自定义的数据分析模型,实现对隐患、性能瓶颈和可能事件的预警。同时,集团内服务器集群规模大、结构复杂,服务器负载随时间变化,并且存储数据量随时间而积累,一旦服务器某些节点负载过重或存储空间溢出,会为整个电力系统造成巨大损失。
目前各个运维监控平台(如信息运维综合监管平台、主机监控系统等)之间相互独立工作,运维信息分散、管理不集中,各类资源没有进行整合,运维管理人员往往需要对多个平台进行监管,不仅工作量大,而且运维效率低。
发明内容
有鉴于此,本发明要解决的技术问题是提供一种分布式深度学习运维系统,能够提高运维管理的效率。
本发明的技术方案是这样实现的:
一种分布式深度学习运维系统,包括资源管理模块、资源监控模块、日志收集分析模块和模型管理模块;
所述资源管理模块用于对深度学习所需要的资源进行管理调度;
所述资源监控模块用于监控集群和任务的所述资源消耗;
所述日志收集分析模块与所述资源监控模块连接,用于收集系统运行日志;
所述模型管理模块分别与所述资源监控模块和所述日志收集分析模块连接,用于根据所述资源消耗和所述系统运行日志进行模型管理。
优选的,所述资源包括:
CPU资源、GPU资源和磁盘资源。
优选的,所述日志收集分析模块还包括报警单元;
所述报警单元用于对异常情况进行上报预警。
优选的,所述模型管理包括模型存储、模型版本控制、模型迁移、模型回滚、模型分类。
优选的,所述模型管理模块还包括映射单元;
所述映射单元,用于建立模型与数据的映射关系。
本发明提出的分布式深度学习运维系统,模型管理模块分别与所述资源监控模块和所述日志收集分析模块连接,从而可以根据所述资源消耗和所述系统运行日志进行模型管理,通过模块件相互依赖统一的运维集成及自适应的运维策略,从而能够提高运维管理的效率。
附图说明
图1为本发明实施例提出的分布式深度学习运维系统的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提出了一种分布式深度学习运维系统,包括资源管理模块101、资源监控模块102、日志收集分析模块103和模型管理模块104;
资源管理模块101用于对深度学习所需要的资源进行管理调度;
资源监控模块102用于监控集群和任务的资源消耗;
日志收集分析模块103与资源监控模块102连接,用于收集系统运行日志;
模型管理模块104分别与资源监控模块101和日志收集分析模块103连接,用于根据资源消耗和系统运行日志进行模型管理。
可见,本发明实施例提出的分布式深度学习运维系统,模型管理模块分别与资源监控模块和日志收集分析模块连接,用于根据资源消耗和系统运行日志进行模型管理。
在本发明的一个优选实施例中,资源包括:
CPU资源、GPU资源和磁盘资源。
资源管理模块使用容器技术对任务所需资源以下进行限制:
1.为深度学习任务设置模板镜像;
2.根据任务内容准备当前深度学习任务所需的特定脚本、数据等文件资源;
3.设置资源限制参数,包括CPU核心数、CPU时钟频率、GPU核心数、内存大小、磁盘空间大小、磁盘IO限制以及容器优先级等;
4.根据资源限制参数为当前深度学习任务创建容器,将深度学习任务所需文件资源传入容器并运行任务。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海诺悦智能科技有限公司,未经上海诺悦智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710549550.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:硬盘模拟器
- 下一篇:磁盘可使用的剩余时长的获取方法及装置