[发明专利]一种模型的训练方法和装置在审
申请号: | 201610201951.4 | 申请日: | 2016-03-31 |
公开(公告)号: | CN107292326A | 公开(公告)日: | 2017-10-24 |
发明(设计)人: | 丁轶;余晋;熊怀东;陈绪 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京润泽恒知识产权代理有限公司11319 | 代理人: | 赵娟 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 模型 训练 方法 装置 | ||
技术领域
本申请涉及计算机处理的技术领域,特别是涉及一种模型的训练方法和一种模型的训练装置。
背景技术
随着互联网的快速发展,人们生活的方方面面都与互联网产生了联系,在人们使用互联网的相关功能时,产生了海量的数据。
目前,经常使用机器学习中的模型训练对这些海量的数据进行挖掘处理,从而进行分类、推荐等操作。
在模型学习中,由于参与训练的样本数据量巨大,使得模型巨大,动辄数亿甚至数十亿的浮点数组成模型,加大了训练的存储难度和计算时间,造成训练困难。
目前,分布式机器学习提供了通过大规模计算机集群进行机器学习、训练模型的方法,其通常构建在由数量庞大的计算机组成的计算机集群之上,通过分布式操作系统进行集群调度、资源管理和任务控制。
通常情况下,大规模的机器学习需要面对两个重要的参数:
1、模型参数。
在机器学习的过程中,模型参数会由于训练算法的计算而更新,不断发生变化。同时,为了得到最后的模型参数结果,训练算法往往需要多个长度不一的向量参与计算,由于训练过程中的模型参数的数量通常上亿甚至上百亿个浮点数,这些模型参数都需要使用计算机集群的存储资源进行存储。
2、样本数据。
样本数据的多少往往直接影响到机器学习算法的效果,没有大量的样本数据达不到需要的模型训练效果,为了得到合理的模型,可能需要多达数百亿个样本数据。
由于机器学习的训练过程需要经历次数繁多的迭代过程,所有参与模型训练的样本数据都会反复的被使用,为最小化训练得到模型的时间,一般将 样本数据存储到计算机内存中,这样就需要庞大的计算机内存。
然而,存储资源在计算机集群中是不可能无限增长的,如果将这些样本数据都放入内部存储,访问效率可以得到保证,但是,单独一台计算机的内存无疑是有限的,在面对海量的样本数据时,往往需要大大数量的计算机主机,这又带来网络、集群管理等多方面的问题。
如果将样本数据存放在外部存储器中,由于存储介质较慢的访问速度和时间延迟,训练工作无法保证高速、高效率地行。
发明内容
鉴于上述问题,提出了本申请实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种模型的训练方法和相应的一种模型的训练装置。
为了解决上述问题,本申请公开了一种模型的训练方法,包括:
读取样本全集中的部分样本数据,组合成样本子集;
将所述部分样本数据相关的模型参数,从针对所述样本全集的第一特征分量映射为针对所述样本子集的第二特征分量;
根据具有所述部分第二特征分量的样本数据训练模型。
优选地,所述读取样本全集中的部分样本数据,组合成样本子集的步骤包括:
从文件存储系统中读取样本全集中的部分样本数据;
将所述部分样本数据写入所述文件存储系统中指定的区域,以组合成样本子集。
优选地,所述将所述部分样本数据相关的模型参数,从针对所述样本全集的第一特征分量映射为针对所述样本子集的第二特征分量的步骤包括:
对所述部分样本数据相关的模型参数,建立针对所述样本全集的第一特征分量与针对所述样本子集的第二特征分量之间的映射关系向量;
将所述部分样本数据相关的模型参数,按照所述映射向量关系从针对所述样本全集的第一特征分量映射为针对所述样本子集的第二特征分量。
优选地,所述根据具有所述部分第二特征分量的样本数据训练模型的步骤包括:
在每一轮迭代中,读取所述部分样本数据;
采用所述部分样本数据进行训练,获得训练结果;
将所述部分样本数据相关的模型参数,从针对所述样本子集的第二特征分量映射为针对所述样本全集的第一特征分量;
将所述第一特征分量对应的训练结果发送至向量计算机,以更模型中所述第一特征分量对应的模型参数。
优选地,所述读取所述样本子集中的样本数据的步骤包括:
读取当前样本计算机在先存储的样本子集中的样本数据;
或者,
当接收到其他样本计算机的样本转移消息时,读取其他样本计算机在先存储的样本子集中的样本数据。
优选地,所述将所述部分样本数据相关的模型参数,从针对所述样本子集的第二特征分量映射为针对所述样本全集的第一特征分量的步骤包括:
读取预设的映射关系向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610201951.4/2.html,转载请声明来源钻瓜专利网。