[发明专利]一种深度神经网络的优化方法在审
申请号: | 201811513778.7 | 申请日: | 2018-12-11 |
公开(公告)号: | CN109635930A | 公开(公告)日: | 2019-04-16 |
发明(设计)人: | 刘闯;陈诗昱 | 申请(专利权)人: | 西安第六镜网络科技有限公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
代理公司: | 北京知呱呱知识产权代理有限公司 11577 | 代理人: | 冯建基;孙进华 |
地址: | 710075 陕西省西安市雁*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基线模型 神经网络 三维 优化 构建 机器学习技术 海量数据 损失函数 问题求解 训练模型 连接层 准确率 样本 | ||
本发明实施例公开了一种深度神经网络的优化方法,涉及机器学习技术领域,所述优化方法包括:构建训练基线模型,所述训练基线模型作为被优化对象;通过Thomson问题求解得到训练基线模型中全连接层的权值;定义新的损失函数并构建新的三维损失层,所述新的三维损失层只有一个超参数θm;利用包含新的三维损失层的训练模型对样本继续训练。本发明可以解决现有技术中深度神经网络在海量数据下训练慢且精度难提升的问题,具有很高的训练速度和准确率。
技术领域
本发明实施例涉及机器学习技术领域,具体涉及一种深度神经网络的优化方法。
背景技术
目前计算机视觉、语音识别和机器人在内的诸多人工智能应用已广泛使用了深度神经网络DNN,由于DNN在语音识别和图像识别上的突破性应用,使用DNN的应用量有了爆炸性的增长。这些DNN被部署到了从自动驾驶汽车、癌症检测到复杂游戏等各种应用中。DNN能使用统计学习方法从原始感官数据中提取高层特征,在大量的数据中获得输入空间的有效表征。
业界常用的深度神经网络是通过全连接层的内积和Softmax层结合的方式来训练网络,表达式为得到了不错的效果,但是当不同类别图像数据的分类数量远远超过深度神经网络训练特征维数时,神经网络的全连接层对权值的训练将消耗整个神经网络训练很大比例的算力和时间,且随着数据量的不断增大,对计算机的算力和训练时间要求越来越高,训练模型也很难收敛,并且准确率很难得到提升。另外,目前state ofart模型的超参数过多,在训练过程中对参数的调节难度很大,很难得到令人满意的结果。
发明内容
为此,本发明实施例提供一种深度神经网络的优化方法,以解决现有技术中深度神经网络在海量数据下训练慢且精度难提升的问题。
为了实现上述目的,本发明的实施方式提供如下技术方案:提供一种深度神经网络的优化方法,所述优化方法包括:构建训练基线模型,所述训练基线模型作为被优化对象;通过Thomson问题求解得到训练基线模型中全连接层的权值;定义新的损失函数并构建新的三维损失层,所述新的三维损失层只有一个超参数θm;利用包含新的三维损失层的训练模型对样本继续训练。
优选地,所述训练基线模型包括卷积层、全连接层和损失层,训练样本通过训练基线模型训练后生成样本标签。
优选地,所述通过Thomson问题求解得到训练基线模型中全连接层的权值的方法包括:类比Thomson问题求解能够得到电子的最优分布,把样本数据投射到一个多维空间内的超球面上,利用Thomson方程计算出最优分布的全连接层的权值。
优选地,所述新的损失函数为:
其中,xi,yi,xj,yj表示样本数据投射在超球面上的位置坐标,N表示样本数据的总数,Wyj,Wyi表示样本数据的坐标向量。
优选地,所述包含新的三维损失层的训练模型包括卷积层和三维损失层,将训练基线模型中的全连接层和损失层替换为三维损失层。
优选地,所述利用包含新的三维损失层的训练模型对样本继续训练的方法包括:将Thomson求解得到的权值提取出来,以训练基线模型的全连接层的原权值为参照,把Thomson求解得到的权值旋转后加载到三维损失层内,对样本数据继续训练。
优选地,所述超参数θm的范围为:其中,θm越小代表约束性越强,则模型准确率越高。
优选地,所述优化方法还包括对三维损失层的测试,所述测试方法包括:利用三维损失层对测试样本进行特征提取,得到一个角度量,再利用余弦相似度计算类内数据或类间数据的相似度,从而检测优化效果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安第六镜网络科技有限公司,未经西安第六镜网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811513778.7/2.html,转载请声明来源钻瓜专利网。