[发明专利]学习方法和信息处理设备在审
申请号: | 202110356122.4 | 申请日: | 2021-04-01 |
公开(公告)号: | CN113822411A | 公开(公告)日: | 2021-12-21 |
发明(设计)人: | 原靖;笠置明彦;檀上匠;甲斐雄高 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王萍;崔俊红 |
地址: | 日本神*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 学习方法 信息处理 设备 | ||
本发明涉及学习方法和信息处理设备。存储器保存包括多个层的模型和训练数据,多个层包括它们相应的参数。处理器开始学习处理,学习处理通过使用训练数据来重复地计算模型的输出的误差,针对每个层计算指示关于参数的误差的梯度的误差梯度,并且基于误差梯度更新参数。处理器针对多个层中的第一层计算在学习处理中的第一次迭代中计算的第一误差梯度与在第一次迭代之后的第二次迭代中计算的第二误差梯度之间的差。在差小于阈值的情况下,处理器在第二次迭代之后的第三次迭代中跳过针对第一层的误差梯度的计算和参数的更新。
技术领域
本文讨论的实施方式涉及学习方法和信息处理设备。
背景技术
存在使用信息处理设备将机器学习作为数据分析来执行的情况。在该机器学习中,收集指示已知情况的训练数据。信息处理设备分析训练数据并生成模型,该模型概括了因子(其也可以被称为解释变量或自变量)与结果(其也可以被称为目标变量或因变量)之间的关系。信息处理设备使用该生成的模型来预测未知情况的结果。例如,信息处理设备生成用于确定在图像中捕获的对象的种类的图像识别模型。
信息处理设备可以生成包括多个层的模型。例如,机器学习可以是生成多层神经网络的深度学习。在该情况下,通过重复迭代,信息处理设备搜索包括在各个层中的参数的最优值。在每次迭代中,通过使用训练数据,信息处理设备对模型的输出的误差进行评估,计算误差梯度,该误差梯度是关于参数的误差的梯度,并且基于各个误差梯度更新参数。例如,使用反向传播来优化所述参数。
已经提出了一种用于从机器学习中自动排除包括在训练数据中的多个解释变量中的一些解释变量的特征过滤方法。在该提出的特征过滤方法中,基于在前一次迭代中计算的对应梯度来确定针对解释变量的过滤阈值。还提出了一种用于在生成多层神经网络的机器学习中自动移除一些层的学习设备。所提出的学习设备针对多个层中的每一层计算相对于多层神经网络的输出的贡献水平,移除具有小贡献的层,并且再次执行机器学习。参见例如以下文献。
国际公布小册子第WO2017/157183号
日本公开特许公报第2019-185275号
在生成包括多个层的模型的机器学习中,参数收敛并不总是在所有层中均匀地进行。存在这样的情况:随着迭代次数的增加,某些层中的参数比其他层中的参数收敛得要早。例如,在多层神经网络中,靠近输入层的层中的参数可能会比靠近输出层的层中的参数收敛得早。
在常规的机器学习中,在每次迭代中更新所有层中的参数。因此,存在这样的情况:一些层中的参数在单次迭代后改变很少或者根本不改变。因此,结果执行了不必要的参数更新处理。即,常规的机器学习具有计算量过大的问题。
发明内容
实施方式的一个方面的目的是减少更新包括多个层的模型的参数时的计算量。
根据一个方面,提供了一种使计算机执行处理的计算机程序,所述处理包括:开始用于生成包括多个层的模型的学习处理,每个层包括参数,学习处理包括通过使用训练数据来重复地计算模型的输出的误差,针对所述多个层中的每个层计算指示关于参数的误差的梯度的误差梯度,并且基于误差梯度更新参数;针对多个层中的第一层,计算在学习处理中的第一迭代中计算的第一误差梯度与在所述第一迭代之后的第二迭代中计算的第二误差梯度之间的差;以及在差小于阈值的情况下,在第二次迭代之后的第三次迭代中跳过第一层的误差梯度的计算和参数的更新。
附图说明
图1示出了根据第一实施方式的信息处理设备;
图2示出了根据第二实施方式的信息处理设备的硬件示例;
图3示出了多层神经网络的结构示例;
图4示出了机器学习中的学习阶段的示例;
图5是示出机器学习中预测准确度和误差梯度的变化的示例的曲线图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110356122.4/2.html,转载请声明来源钻瓜专利网。