[发明专利]用于训练模型的共享存储的系统在审
申请号: | 201910446352.2 | 申请日: | 2019-05-27 |
公开(公告)号: | CN110333931A | 公开(公告)日: | 2019-10-15 |
发明(设计)人: | 黄维啸;王曙光 | 申请(专利权)人: | 北京迈格威科技有限公司 |
主分类号: | G06F9/455 | 分类号: | G06F9/455;G06F16/182;G06N20/00 |
代理公司: | 北京市磐华律师事务所 11336 | 代理人: | 高伟;刘爱平 |
地址: | 100190 北京市海淀区科*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 共享存储 集群 分布式共享存储 物理机构 训练模型 大规模集群 虚拟化系统 调度平台 机器学习 模型训练 用户体验 虚拟化 虚拟机 挂载 虚拟 调度 | ||
1.一种用于训练模型的共享存储的系统,其特征在于,所述系统包括:
多台第一物理机构成的第一集群,提供分布式共享存储;
多台第二物理机构成的第二集群,提供虚拟机;
调度平台,调度所述第二集群,从而使得所述分布式共享存储挂载在所述虚拟机上。
2.根据权利要求1所述的系统,其特征在于,调度平台调度所述第二集群,包括:
所述调度平台从所述第二集群中选择若干台第二物理机,并向所述若干台第二物理机发送调度请求。
3.根据权利要求2所述的系统,其特征在于,所述第二集群中的所述若干台第二物理机在接收到调度请求后,启动虚拟机,并为各自的虚拟机分配硬件资源。
4.根据权利要求3所述的系统,其特征在于,所述第一集群所提供的所述分布式共享存储挂载在所述若干台第二物理机所启动的虚拟机上。
5.根据权利要求1所述的系统,其特征在于,所述第二集群中的每台第二物理机上设置有代理,所述代理获取其所在的第二物理机的虚拟机信息,并将所获取的虚拟机信息发送至所述调度平台。
6.根据权利要求5所述的系统,其特征在于,所述调度平台根据所述虚拟机信息,使用调度算法进行调度。
7.根据权利要求2所述的系统,其特征在于,设置所述若干台第二物理机中的某台第二物理机作为服务机,且所述若干台第二物理机中的其他第二物理机作为工人机,
其中,所述服务机提供网络文件系统NFS服务,所述工人机挂载并使用所述NFS服务。
8.根据权利要求7所述的系统,其特征在于,所述服务机的虚拟机所挂载的块存储RBD作为所述NFS服务的服务器。
9.根据权利要求7所述的系统,其特征在于,所述服务机的互联网协议IP地址或者域名是固定的。
10.根据权利要求7所述的系统,其特征在于,当所述某台第二物理机的状态变差且无法保证程序正常运行时,进行迁移以将另一台第二物理机作为所述服务机。
11.根据权利要求1至10中任一项所述的系统,其特征在于,还包括:
控制中心,接收用户请求,并向所述调度平台发送指令;
其中,所述调度平台在接收到所述指令后调度所述第二集群。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京迈格威科技有限公司,未经北京迈格威科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910446352.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:数字化平台系统
- 下一篇:基于容器云技术的服务编排与依赖关系管理方法和系统