[发明专利]一种基于亚马逊网络服务器的机器学习系统搭建方法有效
申请号: | 201910106145.2 | 申请日: | 2019-01-31 |
公开(公告)号: | CN109740765B | 公开(公告)日: | 2023-05-02 |
发明(设计)人: | 何海林;徐滢 | 申请(专利权)人: | 成都品果科技有限公司 |
主分类号: | G06F8/30 | 分类号: | G06F8/30;G06N99/00;H04L67/1097;H04L67/10 |
代理公司: | 成都高远知识产权代理事务所(普通合伙) 51222 | 代理人: | 李安霞;曾克 |
地址: | 610000 四川省成都市*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 亚马逊 网络 服务器 机器 学习 系统 搭建 方法 | ||
本发明公开一种基于亚马逊网络服务器的机器学习系统搭建方法,包括:采用AWS Boto3接口创建Amazon EMR集群,所述Amazon EMR集群配置有Zeppelin存储平台;将预先编译的Spark任务代码从Amazon S3拷贝到所述Amazon EMR集群的Master机器上;通过所述Zeppelin存储平台的服务接口,将所述Spark任务代码在所述Master机器上的存储路径注册到所述Zeppelin存储平台的Spark解释器中,将所述Zeppelin存储平台的Zeppelin Notebook的代码仓库注册到所述Amazon S3中;通过AWS创建所需的机器学习实例。本发明提供的技术方案,能够快速地完成所需系统的搭建,提高开发效率。
技术领域
本发明涉及计算机网络资源管理技术领域,尤其涉及一种基于亚马逊网络服务器的机器学习系统搭建方法。
背景技术
亚马逊网络服务器(Amazon Web Services,AWS)是亚马逊公司运营的云计算资源管理平台,以远端Web服务的方式向企业提供多种类型的AWS资源,例如,亚马逊弹性计算网云(AWS EC2,Amazon Elastic Compute Cloud)服务资源以及亚马逊简单存储服务(AmazonS3,Amazon Simple Storage Service)资源等。其中,AWS EC2服务资源可以让用户以租用虚拟计算机(即实例)的方式,远程使用不同类型的虚拟计算机组成的计算机系统,在该计算机系统中可以运行用户所需要的任何应用软件,同时,用户可以随时创建、运行和终止AWS EC2服务;Amazon S3服务可用于进行网络数据存储。Amazon EMR提供的托管Hadoop框架可以让用户在多个动态可扩展的Amazon EC2实例中处理大量数据。集群是Amazon EC2实例的集合,集群也是Amazon EMR的核心组件。
基于AWS提供的各种基础服务,开发人员可以快速地搭建各种计算环境,用于实现云计算、大数据和机器学习等。在可控的成本资源下如何快速地响应产品需求以完成机器学习目标,成为开发人员需要优先考虑的因素。机器学习涉及到的内容非常多,主要包括数据采集、数据治理、数据特征的处理、模型的选取、超参数搜索、模型训练等任务。前期的数据采集和治理等可以使用Flume、Spark、Kinesis、Kafka、Elastic Search等软件工具来完成;后续的数据特征的处理、模型相关的训练任务等需要使用到诸如Spark、Tensorflow等计算引擎和计算平台。在确定机器学习任务目标后,开发人员还需要进行数据验证、模型训练、AB测试等诸多环节,而这些环节需要快速地调用AWS资源进行计算和验证。具体地,需要在亚马逊后台分别完成EMR和EC2的创建,再部署相关代码,使用Spark计算引擎等提交计算任务或者启动Python程序语言脚本进行数据特征和模型的调试,观察相关数据结果和指标。由于不同模型可能需要不同类型的数据,以及模型调优需要持续一段时间,因此,上述整个开发周期本身耗时较长。若因为前期成本投入不足而导致AWS资源被回收,开发人员又需要重新创建EMR和EC2,从而进一步拉长开发周期,同时,重新创建EMR和EC2的过程也使得开发人员的工作量大大增加。上述问题均导致开发人员的工作效率低下。
发明内容
本发明旨在提供一种基于亚马逊网络服务器的机器学习系统搭建方法,能够快速地完成所需系统的搭建,提高开发效率。
为达到上述目的,本发明采用的技术方案如下:
一种基于亚马逊网络服务器的机器学习系统搭建方法,包括:采用AWS Boto3接口创建Amazon EMR集群,所述Amazon EMR集群配置有Zeppelin存储平台;将预先编译的Spark任务代码从Amazon S3拷贝到所述Amazon EMR集群的Master机器上;通过所述Zeppelin存储平台的服务接口,将所述Spark任务代码在所述Master机器上的存储路径注册到所述Zeppelin存储平台的Spark解释器中,将所述Zeppelin存储平台的Zeppelin Notebook的代码仓库注册到所述Amazon S3中;通过AWS创建所需的机器学习实例。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都品果科技有限公司,未经成都品果科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910106145.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于大数据的小型企业失信预测方法
- 下一篇:一种工业设备维护服务规划方法