[发明专利]一种基于图像的模型融合的神经网络结构训练方法在审

申请号：	201710845881.0	申请日：	2017-09-19
公开（公告）号：	CN109522914A	公开（公告）日：	2019-03-26
发明（设计）人：	张伟;刘英丽;黄昊;王康;何旭;高升	申请（专利权）人：	中国科学院沈阳自动化研究所
主分类号：	G06K9/62	分类号：	G06K9/62;G06N3/08
代理公司：	沈阳科苑专利商标代理有限公司 21002	代理人：	李巨智
地址：	110016 辽***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	神经网络结构模型融合目标函数网络结构原始神经数据集子集训练神经网络动量全局最优解输出数据集采集图像泛化性能图像特征训练结果表现减小物理学收敛图像改进
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种改进的模型融合的神经网络结构训练方法，采集图像，形成数据集，根据图像特征确定原始神经网络结构；将数据集划分为若干个子集，并且改变原始神经网络结构，得到若干个模型，使得到的模型个数与子集个数相同；采用划分后的子集分别训练对应的模型，得到每个模型的表现值；计算每个模型的表现系数，并根据表现系数输出数据集训练结果。本发明提供了简化训练神经网络难度的新思路，综合加入物理学动量的设计方法的优势，可大幅减小训练时间，加速目标函数收敛速度，更容易获得目标函数全局最优解。同时提高泛化性能。

技术领域

本发明涉及一种深度学习中优化算法领域，具体地说是一种基于图像的模型融合的神经网络结构训练方法。

背景技术

深度学习如今广泛应用与许多领域，比如机器视觉，人脸识别，语音识别，机器翻译等，达到了不错的应用效果。但是尽管我们使用这些算法训练的模型经历了变革，即简化了极深架构的训练。但是人们普遍认为深度网络是难以训练的。这是由于超参数较多，结构复杂等因素形成的。由于我们的活动越来越多发生在计算机上，我们做什么也越来越多地被记录。由于我们的计算机越来越多地联网在一起，这些记录变得更容易集中管理，并更容易将它们整理成适于机器学习应用的数据集。“大数据”时代最重要的新进展是，现在我们有了这些算法得以成功训练所需的资源。大的数据集和能够训练更深网络的技术，深度学习的普及性和实用性都有了极大的发展，使机器学习更加容易。

因此为了更加容易训练深度学习的模型，我充分利用数据，将数据分成K个不同的子集我们就可以训练K个不同的模型，每个数据集的差异导致了训练模型之间的差异，增加我们再测试集上的泛化性能，减少测试误差。在每个模型的目标函数的优化中采用动量的随机梯度方法，随机梯度下降虽然仍然比较受欢迎，但是有时学习过程会比较慢。我们采用动量的随机梯度下降，动量方法旨在加速学习，特别是处理高曲率、小但一致的梯度，或是带噪声的梯度。动量算法积累了之前梯度指数级衰减的移动平均，并且继续沿该方向移动。动量算法引入ν充当速度角色，代表移动的方向和速率。速度被设为负梯度的指数衰减平均。在动量学习算法中，我们假设是单位质量，因此速度向量v也可以看作是粒子的动量。超参数α∈[0,1)决定了之前梯度的贡献衰减得更新，规则如下：

速度v累积了梯度元素相对于∈，α越大，之前梯度对现在方向的影响也越大。

如图2所示是动量随机梯度下降的效果图。

横跨轮廓的圆点路径表示动量学习规则所遵循的路径，它使该函数最小化。我们在该路径的每个步骤画一个箭头，表示梯度下降将在该点采取的步骤。我们可以看到，一个二次目标函数看起来像一个长而窄的山谷或具有陡峭边的峡谷。动量正确地纵向穿过峡谷，而普通的梯度步骤则会浪费时间在峡谷的窄轴上来回移动。

发明内容

针对现有技术的不足，本发明提供一种基于图像的模型融合的神经网络结构训练方法，充分利用数据，且能确定提高泛化性能减少测试误差。

本发明为实现上述目的所采用的技术方案是：

一种改进的模型融合的神经网络结构训练方法，包括以下步骤：

步骤1：采集图像，形成数据集，根据图像特征确定原始神经网络结构；

步骤2：将数据集划分为若干个子集，并且改变原始神经网络结构，得到若干个模型，使得到的模型个数与子集个数相同；

步骤3：采用划分后的子集分别训练对应的模型，得到每个模型的表现值；

步骤4：计算每个模型的表现系数，并根据表现系数输出数据集训练结果。

所述图像特征包括：图像的长度、宽度和格式。