[发明专利]一种CNN模型及其训练方法、终端、计算机可读存储介质在审
申请号: | 201910864377.4 | 申请日: | 2019-09-12 |
公开(公告)号: | CN110598862A | 公开(公告)日: | 2019-12-20 |
发明(设计)人: | 高岩;姜凯;郝虹;于治楼;李朋 | 申请(专利权)人: | 山东浪潮人工智能研究院有限公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/04 |
代理公司: | 37100 济南信达专利事务所有限公司 | 代理人: | 孙园园 |
地址: | 250100 山东省济南市高新*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网络层 同步层 计算机可读存储介质 处理器执行 模型训练 终端 程序指令执行 程序指令 前向传播 线性结构 归一化 输入层 处理器 逐段 调用 样本 配置 分析 保证 | ||
1.一种CNN模型的训练方法,其特征在于应用于呈线性结构的CNN模型,且所述CNN模型具有批量归一化层,所述训练方法包括如下步骤:
在每个批量归一化层和与其相邻的上一个网络层之间插入一个同步层,所述同步层用于暂存与其相邻的上一个网络层的输出、并用于启动与其相邻的批量归一化层对输入数据的批量运算;
输入层和与其相邻的同步层之间的所有网络层、以及任意相邻的两个同步层之间的所有网络层分别为一段单独的网络层单元;
对于上述所有的网络层单元通过数据分批次的方式逐段进行前向传播;
所述通过数据分批次的方式逐段进行前向传播为:对于每个网络层单元,将其输入数据分批次的输入所述网络层单元并暂存于同步层,汇总同步层的输出组成大批量样本,通过对应的批量归一化层对所述大批量样本进行归一化。
2.根据权利要求1所述的一种CNN模型的训练方法,其特征在于在每个批量归一化层和与其相邻的上一个网络层之间插入一个同步层,包括如下步骤:
查找到所述CNN模型中所有的批量归一化层;
按照批量归一化层在所述模型中的出现次序组成划分节点;
在划分节点插入同步层,所述同步层位于对应批量归一化层之前。
3.根据权利要求2所述的一种CNN模型的训练方法,其特征在于根据所述CNN模型的模型结构描述文件查找到所述CNN模型中所有的批量归一化层。
4.根据权利要求1所述的一种CNN模型的训练方法,其特征在于对于每个网络层单元,将其输入数据分批次的输入所述网络层单元并暂存于同步层,汇总同步层的输出组成大批量样本,包括如下步骤:
根据所述网络层单元的结构、所述CNN模型的运行环境以及输入数据的大小,将输入数据划分为多个小批量样本;
前向传播时,将所述多个小批量样本依次输入所述网络层单元,且每个小批量样本传播至同步层停止继续传播并等待下一个小批量样本,直至所有的小批量样本均传送至所述同步层;
汇总同步层的输出,组成大批量样本。
5.根据权利要求4所述的一种CNN模型的训练方法,其特征在于对于每个网络层单元,通过对应的批量归一化层对所述大批量样本进行归一化,包括:
统计计算所述大批量样本的均值和方差;
通过变换公式对上述均值和方差进行归一化处理,变换公式为:
其中,x表示输入同步层的净激活值,μ和σ分别为净激活值所属集合的均值和方差,μ和σ通过统计而来;γ和β分别为尺度超参数和偏移超参数。
6.一种CNN模型,其特征在于所述CNN模型具有批量归一化层的线性结构,且为通过如权利要求1-5任一项所述的批量归一化卷积神经网络模型的训练方法训练得到的模型。
7.根据权利要求6所述的一种CNN模型,其特征在于所述CNN模型包括:
输出层,所述输入层用于输入训练样本;
卷积层和/或全连接层,所述卷积层或全连接层至少一个,用于对输入的训练样本进行卷积计算并提取特征;
其它类型层,所述其它类型层包括但不限于激活层,卷积层或全连接层与其它类型层顺序堆叠;
批量归一化层,所述批量归一化层至少一个,每个批量归一化层无间隔的位于与其对应的卷积层或全连接层之后;
同步层,所述同步层至少一个并与批量归一化层一一对应,每个同步层无间隔的位于与其对应的批量归一化层之前,同步层用于暂存与其相邻的上一个网络层的输出、并用于启动与其相邻的批量归一化层对输入数据的批量运算;
输出层,所述输出层用于输出训练样本的最终特征。
8.一种终端,其特征在于包括处理器、输入设备、输出设备和存储器,处理器、输入设备、输出设备和存储器相互连接,存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令执行如权利要求1-5任一项所述的一种CNN模型的训练方法。
9.一种计算机可读存储介质,其特征在于所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,程序指令当被处理器执行时所述处理器执行如权利要求1-5任一项所述的一种CNN模型的训练方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东浪潮人工智能研究院有限公司,未经山东浪潮人工智能研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910864377.4/1.html,转载请声明来源钻瓜专利网。