[发明专利]一种面向分布式机器学习的数据划分方法在审

专利信息
申请号: 202110035224.6 申请日: 2021-01-12
公开(公告)号: CN112732444A 公开(公告)日: 2021-04-30
发明(设计)人: 伍佳名 申请(专利权)人: 北京工业大学
主分类号: G06F9/50 分类号: G06F9/50;G06N20/00;G06N3/04;G06N3/08
代理公司: 北京思海天达知识产权代理有限公司 11203 代理人: 刘萍
地址: 100124 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 面向 分布式 机器 学习 数据 划分 方法
【说明书】:

发明公开了一种分布式机器学习数据划分方法,分为四个步骤:初始化、神经网络训练、状态选取、数据划分。本发明首先进行了验证实验,观察到每个任务使用的资源量不同时,在BSP模式下,整个系统一轮完成时间总是取决于资源使用量最少的那个任务。这无疑浪费了大量的资源,严重拖慢整个系统的完成时间;然后根据量化分析结果,定义了问题模型和优化目标,即在保证分布式机器学习模型训练精度值的前提下,提高整个分布式机器学习模型训练作业的计算效率;最后本发明提出一种基于强化学习的分布式机器学习数据划分方法,并设计了一个双目标神经网络,与现在有的传统数据划分策略相比发明的数据划分方法使整个分布式机器学习模型训练的每轮计算效率显著提高,对加快分布式机器学习执行速度有较强的指导意义。

技术领域

本发明属于分布式机器学习领域,具体涉及混布负载场景下分布式机器学习模型训练的数据划分方法。

背景技术

随着互联网行业的发展,互联网及相关产业拥有的数据中心(Datacenter)在数量、规模上得到了迅猛发展。数据中心是互联网及相关产业的信息化基础设施,为互联网业务的运营提供计算、存储和网络等软硬件资源。近些年,虚拟化技术、容器化技术以及服务器整合技术在数据中心得到普遍应用,在提高了数据中心弹性扩增能力的同时,还提高了数据中心整体资源利用率。传统数据中心将在线负载和离线负载隔离部署,离线负载属于延迟非敏感型负载,其重要目标是为了追求对数据处理的高吞吐量。在线负载属于延迟敏感型负载对数据处理请求的响应延迟要求较高,在运行当中具有较强的波动性。因此,这使得传统数据中心的资源利用率较低。混布负载技术为了进一步提升资源利用率将延迟敏感型负载和延迟非敏感型负载部署到同一台计算设备共享资源。混布负载场景下为了保证延迟敏感的在线服务的服务质量(Quality of Service)所以使得离线批处理负载可使用的计算资源处于差异化的状态。

分布式机器学习(Distributed Machine Learning)就是一种在混布负载场景下的离线批处理负载,随着数据规模的扩大,机器学习逐渐从集中式向分布式发展。通常情况下分布式机器学习采用参数服务器架构在同步模式下进行训练,在训练期间,每个worker使用分配的数据计算模型训练,并将模型参数发送到相应的参数服务器。然后,worker从参数服务器获取新的模型参数,以便使用最新的模型参数值。同时,参数服务器从workers收到的模型参数,并通过参数更新将最新的模型参数值发送回workers。这个过程在分布式机器学习模型训练的过程中迭代发生,直到全局模型收敛。此时数据样本依据批尺寸被静态、对称的分配给每一个计算节点,使得分布式机器学习模型训练时间大大延长。当前分布式机器学习领域数据划分的方法主要有随机采样发,置乱切分法等,他们均是将数据行随机打乱然后划分。另外一些数据划分策略是关于特殊负载的数据划分即将存在依赖关系的数据划分在一起。还有一些数据划分策略,基于Hadoop集群,在任务开始前根据每个节点的计算能力为每个节点分配数据。现有方法存在以下问题:(1)混布负载场景下无法有效解决分布式机器学习模型训练计算效率低下问题。

分布式机器学习领域现有的数据划分方法,在模型训练前将数据样本依据批尺寸静态、对称的分配给每一个计算节点。在混布负载场景中由于物理节点间存在性能差异,或者物理节点上剩余可用资源存在差异以及并发执行的多个应用之间存在共享资源竞争等原因,造成worker在节点间获得的计算能力非对称的情况。在这种情况下,拥有计算能力相对较强的节点势必会率先处理完成本地分布的数据,然后等待其他节点完成数据处理,节点间数据处理时间的非对称性无疑会增加作业的总体执行时间。

(2)无法保证分布式机器学习训练模型的最终精度。

分布式机器学习模型训练的一个重要目标就是要保证模型训练的精度值,现有的方法有以负载在节点中响应时间为度量,然后按照响应时间分配数据对数据划分。有的在任务开始前根据每个节点的计算能力为每个节点分配数据,并且该策略可以动态地调整和重新分配数据。然后,现有方法没有考虑到数据划分结果会对模型最终精度产生影响,使得模型精度不能达到我们期望的精度值。

发明内容

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110035224.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top