[发明专利]一种基于卷积神经网络训练的并行方法在审
申请号: | 201910758686.3 | 申请日: | 2019-08-16 |
公开(公告)号: | CN112396154A | 公开(公告)日: | 2021-02-23 |
发明(设计)人: | 宋岚 | 申请(专利权)人: | 华东交通大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
代理公司: | 北京智行阳光知识产权代理事务所(普通合伙) 11738 | 代理人: | 黄锦阳 |
地址: | 330000 江西省*** | 国省代码: | 江西;36 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 卷积 神经网络 训练 并行 方法 | ||
1.一种基于卷积神经网络训练的并行方法,其特征在于:提出一个并行框架,分为三层,数据层,操作层和通信层,各层的功能描述如下:
数据层D-layer:数据集(D1,…Dn)分散存储在n个数据结点上:对于大量训练数据,单个工作节点无法完成存储和计算时,需要将数据划分并将其分配到各个工作节点上;数据划分从两个角度进行考虑,一是对训练样本进行划分,另一个是对每个样本的特征维度进行划分;设训练数据以维特征向量的方式给出,其中每一维对应一种对输入样本进行刻画的特征,将这维特征顺序切分为N份,把每一份特征对应的数据分配到N个工作节点上;包括卷积层的数据变换和全连接层的数据变换;
操作层O-layer:在工作流程的q阶段,nq个工作结点进行独立并发计算,每个节点只处理各自对应的数据,并存储得到的中间结果;
通信层T-layer:在阶段q(q≠p)内,每个通信操作原子ti,j进行点对点消息传递,它将阶段q内的工作结点oi(i∈[1,nq])产生的中间结果传递给阶段q+1内的工作节点oj(j∈[1,nq]),若ti,j=0,则oj与oi间不存在通信。
2.根据权利要求1所述的一种基于卷积神经网络训练的并行方法,其特征在于:所述卷积层的数据变换中,将图像的尺寸及波段个数看作一个三维立方,长W和高H对应于图像的大小,波段个数对应于立方体的宽C,同时,多个卷积核也可用三维立方体的形式来表示,方法是将输入图像按照卷积核的大小由三维立方体表示,降维为二维的矩阵表示,并按一定策略划分为若干个数据块(D1,…Dn);
设第i层卷积核的个数为NCi,二维情况下,输入图像大小为IH*IW,与大小为Ksize*Ksize卷积核运算后,不进行填充的情况下,特征图大小为(IH-Ksize+1)*(IW-Ksize+1);
将输入图像转化为输入矩阵A,矩阵的行数为(IH-Ksize+1)*(IW-Ksize+1),其列数为Ksize*ksize*depth,卷积图像转化为卷积矩阵B,行数为Ksize*ksize*depth,列数为NCi,将输入的图像根椐卷积核大小按一定的padding规则划分成N个子图像块,每个子图像块是一个三维立方体,每个立方体长为W,高为H,宽为C,转换为大小为CHW×N的矩阵。
3.根据权利要求2所述的一种基于卷积神经网络训练的并行方法,其特征在于:所述图像的波段个数决定了卷积核立方体的第三维度C,设某一层卷积层中卷积核立方体的个数为U,对三维的卷积核进行一个变换,得到大小为CHW×U的卷积矩阵,其卷积运算就可以表示为矩阵乘法运算,最后得到大小为N×U的特征图矩阵。
4.根据权利要求1所述的一种基于卷积神经网络训练的并行方法,其特征在于:所述全连接层的数据变换中,全连接层可看作为一种卷积操作,可采用和卷积层数据变换相同方法,如前一层是卷积层,则可以将操作转化为与上一层输出图像尺寸大小相等的卷积核的全局卷积,如前一层是全连接层,则将操作转化为与1×1的卷积核的卷积。
5.根据权利要求1所述的一种基于卷积神经网络训练的并行方法,其特征在于:所述操作层中,每个工作节点根据分配到的局部训练数据进行并行训练,计算训练样本上的损失函数之和,并利用随机梯度下降法来学习模型参数,即,矩阵数据按约定规则分配给各个工作节点进行存储与计算。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东交通大学,未经华东交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910758686.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于NFC的通信方法及装置
- 下一篇:丙烯酸改性聚酯树脂及其制备方法