[发明专利]一种神经网络模型生成方法及装置有效
申请号: | 202110103858.0 | 申请日: | 2021-01-26 |
公开(公告)号: | CN112836819B | 公开(公告)日: | 2023-07-25 |
发明(设计)人: | 宇哲伦 | 申请(专利权)人: | 北京奇艺世纪科技有限公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/0464 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 项京;马敬 |
地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 神经网络 模型 生成 方法 装置 | ||
本发明实施例提供了一种神经网络模型生成方法及装置,方法包括:获取预设结构的第一神经网络模型;其中,第一神经网络模型包括至少一个批标准化BN层;基于目标样本图像和目标损失函数,对第一神经网络模型进行模型训练,得到第二神经网络模型;其中,目标损失函数为基于原始损失函数和BN层的模型参数计算得到的;确定第二神经网络模型中除目标卷积核以外的网络模型结构,作为第三神经网络模型;其中,目标卷积核为第二神经网络模型中对应的BN层的模型参数的绝对值小于目标阈值的卷积核;基于第三神经网络模型,生成目标神经网络模型。如此,能够降低目标神经网络模型的结构复杂度,提高目标神经网络模型的适用性。
技术领域
本发明涉及深度学习技术领域,特别是涉及一种神经网络模型生成方法及装置。
背景技术
随着计算机技术的快速发展,以深度学习为代表的AI(ArtificialIntelligence,人工智能)技术在各方面得到了广泛应用。例如,基于样本图像和预设损失函数,对预设结构的神经网络模型进行训练,使得训练得到的神经网络模型可以自动识别图像中的对象(例如,人物、动物等)。
然而,学习能力强、拟合能力好的神经网络模型的结构比较复杂,相应的,基于训练得到的神经网络模型对数据进行处理,对运行该神经网络模型的设备的性能要求较高,也就导致相关技术中神经网络模型的适用性较差。
发明内容
本发明实施例的目的在于提供一种神经网络模型生成方法及装置,以降低神经网络模型的结构复杂度,提高神经网络模型的适用性。具体技术方案如下:
在本发明实施的第一方面,首先提供了一种神经网络模型生成方法,所述方法包括:
获取预设结构的第一神经网络模型;其中,所述第一神经网络模型包括至少一个BN(Batch Normalization,批标准化)层;
基于目标样本图像和目标损失函数,对所述第一神经网络模型进行模型训练,得到第二神经网络模型;其中,所述目标损失函数为基于原始损失函数和所述BN层的模型参数计算得到的;所述第二神经网络模型的输入参数为所述目标样本图像、输出参数为所述目标样本图像中每一像素点属于预设类别的概率;
确定所述第二神经网络模型中除目标卷积核以外的网络模型结构,作为第三神经网络模型;其中,所述目标卷积核为所述第二神经网络模型中对应的BN层的模型参数的绝对值小于目标阈值的卷积核;
基于所述第三神经网络模型,生成目标神经网络模型。
可选的,所述目标损失函数的计算过程包括:
针对每一BN层,基于预设公式计算该BN层对应的正则化约束;其中,所述预设公式为:
R=λ1|γ|+λ2|β|
R表示该BN层对应的正则化约束,λ1和λ2表示预设权重;γ表示该BN层的缩放因子,β表示该BN层的偏置;|γ|表示γ的范数,|β|表示β的范数;
计算各个BN层对应的正则化约束与所述原始损失函数的总和值,得到所述目标损失函数。
可选的,所述基于所述第三神经网络模型,生成目标神经网络模型,包括:
针对所述第三神经网络模型中的每一BN层,按照该BN层的前一网络层输出数据的维度,对该BN层的维度进行调整,得到第四神经网络模型;
基于所述目标样本图像和所述原始损失函数,对所述第四神经网络模型进行模型训练,得到目标神经网络模型。
可选的,在确定所述第二神经网络模型中除目标卷积核以外的网络模型结构,作为第三神经网络模型之前,所述方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇艺世纪科技有限公司,未经北京奇艺世纪科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110103858.0/2.html,转载请声明来源钻瓜专利网。