[发明专利]信息处理设备和信息处理方法在审
申请号: | 201880071369.8 | 申请日: | 2018-11-21 |
公开(公告)号: | CN111295677A | 公开(公告)日: | 2020-06-16 |
发明(设计)人: | 三上裕明 | 申请(专利权)人: | 索尼公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 吴孟秋 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 信息处理 设备 方法 | ||
[问题]有效地加速使用DNN的学习,而与学习技术无关。[解决方案]提供了一种信息处理设备,其包括使用神经网络执行学习的学习单元,并且该学习单元基于具有用于学习来自神经网络的输出的理想状态的间隙值动态地改变在学习期间的批大小的值。此外,提供了一种信息处理方法,其包括由处理器执行使用神经网络的学习,并且该学习还包括基于具有用于学习来自神经网络的输出的理想状态的间隙值动态地改变在学习期间的批大小的值。
技术领域
本公开涉及信息处理设备和信息处理方法。
背景技术
近年来,神经网络(其作为表示大脑神经系统机制的数学模型)已受到关注。此外,已经提出了许多使用神经网络来增加学习速度的技术。例如,非专利文献1公开了用于在学习期间改变批大小的技术。
引用列表
非专利文献
非专利文献1:Samuel L.Smith和其他三人,“Don't Decay the Learning Rate,Increase the Batch Size”,2017年11月1日,[在线],[2018年9月7日搜索],互联网https://arxiv.org/pdf/1711.00489.pdf
发明内容
技术问题
然而,非专利文献1中公开的技术依赖于特定的学习技术,并且难以将其应用于不采用该技术的学习。
问题的解决方案
根据本公开,提供了一种信息处理设备,其包括:使用神经网络执行学习的学习单元,其中,该学习单元在学习期间基于具有用于从神经网络输出的学习的理想状态的间隙值动态地改变批大小的值。
此外,根据本公开,提供了一种信息处理方法,其包括:由处理器使用神经网络执行学习,其中,该学习还包括在学习期间基于具有用于从神经网络输出的学习的理想状态的间隙值动态地改变批大小的值。
附图说明
图1是示出在应用分阶学习率衰减的情况下损失(loss)的转变的示例的曲线图。
图2是示出根据本公开的实施方式的批大小改变的概述的曲线图。
图3是示出根据实施方式的信息处理设备的功能配置的示例的框图。
图4是示出当根据实施方式的基于损失的梯度的批大小改变应用于ImageNet/ResNet-50时的验证结果的曲线图。
图5是示出当根据实施方式的基于训练值的批大小改变应用于ImageNet/ResNet-50时的验证结果的曲线图。
图6是示出当根据实施方式的基于损失的批大小改变应用于使用MNIST的学习时的验证结果的曲线图。
图7是示出当根据实施方式的基于损失的批大小改变应用于使用cifar10的学习时的验证结果的曲线图。
图8是示出当将根据实施方式的基于损失的批大小改变应用于使用cifar10的学习时的验证结果的曲线图。
图9是示出根据实施方式的用于基于损失的第一微分值改变批大小的训练脚本和损失梯度计算模块的示例的示图。
图10是示出当根据实施方式的每个回合(epoch)中的批大小增加应用于使用MNIST的学习时的验证结果的曲线图。
图11是示出当根据实施方式的基于损失和回合的批大小改变应用于使用cifar10的学习时的验证结果的曲线图。
图12是示出根据本实施方式的用于基于损失和回合来增加或减少批大小的训练脚本的示例的示图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于索尼公司,未经索尼公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880071369.8/2.html,转载请声明来源钻瓜专利网。