[发明专利]一种基于列划分的分布式机器学习优化的分类方法及装置有效
申请号: | 201911156466.X | 申请日: | 2019-11-22 |
公开(公告)号: | CN110929884B | 公开(公告)日: | 2023-05-16 |
发明(设计)人: | 张智鹏;蒋悦紫晗;崔斌;赵通 | 申请(专利权)人: | 北京大学 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 北京万象新悦知识产权代理有限公司 11360 | 代理人: | 黄凤茹 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 划分 分布式 机器 学习 优化 分类 方法 装置 | ||
1.一种基于列划分的分布式机器学习优化的分类方法,采用基于列划分的分布式随机梯度下降SGD方法,称为ColumnSGD,对多维度序列数据进行分类;所述多维度序列数据包括基因序列数据;所述ColumnSGD方法包括:建立分布式机器学习系统的容错机制、建立基于列划分的分布式SGD模型,通过采用将行划分数据转换为列划分数据的高效算法,并基于梯度编码提出模型掉队者问题的解决方法,实现高效分类;包括如下步骤:
1)建立包括一个主节点和多个计算节点的分布式机器学习系统,该系统具有随机梯度下降的容错机制;
2) 建立基于列划分的分布式SGD模型;将多维度数据和基于列划分的分布式SGD模型使用相同的划分策略进行列式划分,得到拆分成多个维度的多条数据,进一步使用压缩稀疏行格式压缩数据;所述划分策略采用基于块的列式分发方法,具体执行如下操作:
第一步:主节点将基于行划分存储的多维度数据与模型组织成一个以块为单位的序列数据块与模型块的顺序队列,每个块的大小可指定;
第二步:当一个计算节点空闲时,主节点从顺序队列中取出一个数据块,计算节点读取该数据块,分成K份工作集;每个工作集包含数据块中的一个列划分;
第三步:该计算节点将K份工作集和该数据块的id一起发送给对应的计算节点;
3)主节点发指令给所有的计算节点,加载各自的列划分的数据,并初始化建立基于列划分的分布式SGD模型,进行迭代计算;包括如下步骤:
第一步:每个计算节点使用本地的工作集和相应的模型来计算统计量;
第二步:主节点从计算节点汇合所有的统计量,并广播给所有的计算节点;
第三步:主节点通过备份计算对系统中的掉队者进行处理;所述掉队者为未在设定时间完成计算任务的计算节点;所述备份计算是指多个计算节点同时计算同一统计量;
第四步:每个计算节点根据本地工作集和从主节点收到的统计量更新模型;采用包括SGD和Adam更新模型;具体是使用逻辑回归模型,利用点积作为统计量,使用梯度更新方法更新所述逻辑回归模型;
4)完成一轮迭代,重复步骤3)中的迭代计算,直到达到停止条件,即得到模型参数和训练好的序列分类模型;
5)使用训练好的序列分类模型对多维度序列数据进行分类;
通过上述步骤,实现基于列划分的分布式机器学习优化的序列分类。
2.如权利要求1所述基于列划分的分布式机器学习优化的分类方法,其特征是,根据用于基因序列分类的多维度数据,建立基因序列分类模型,采用所述基于列划分的分布式机器学习优化的分类方法对建立基因序列分类模型进行训练,得到训练好的基因序列分类模型;再利用基因序列分类模型对基因序列进行分类;包括如下步骤:
将待分类的基因序列测试集数据输入分布式机器学习系统的计算节点中;
计算节点将输入的基因序列填入训练好的基因序列分类模型中,计算得到基因序列的类别概率;
根据计算得到的类别概率,确定该基因序列所属的类别为概率最大的类别;
通过上述步骤,实现基于列划分的分布式机器学习优化的基因序列分类。
3.如权利要求1所述基于列划分的分布式机器学习优化的分类方法,其特征是,步骤1)所述容错机制包括对以下情况的处理:
若检查发现单个任务失败,则重启单个任务;
若发现计算节点宕机,则重新启动一个新的计算节点并且重新加载数据;
若主节点宕机,则重新启动任务。
4.如权利要求1所述基于列划分的分布式机器学习优化的分类方法,其特征是,步骤3)第二步中,汇合所有的统计量具体是将计算节点的统计量进行向量求和。
5.如权利要求1所述基于列划分的分布式机器学习优化的分类方法,其特征是,步骤3)第三步中,将计算节点划分为K/(S+1)组,其中K为计算节点的数量;S为备份的数量,在每一组内部,所有的计算节点均作为其他计算节点的备份,每一个计算节点存储S+1份数据划分和模型划分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911156466.X/1.html,转载请声明来源钻瓜专利网。