[发明专利]基于关键路径的神经网络训练方法和装置在审
申请号: | 202010889881.2 | 申请日: | 2020-08-28 |
公开(公告)号: | CN112183717A | 公开(公告)日: | 2021-01-05 |
发明(设计)人: | 刘艾杉;刘祥龙;李恬霖 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
代理公司: | 北京汲智翼成知识产权代理事务所(普通合伙) 11381 | 代理人: | 陈曦;陈琳 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 关键 路径 神经网络 训练 方法 装置 | ||
本发明公开了一种基于关键路径的神经网络训练方法,同时公开了相应的基于关键路径的神经网络训练装置。本发明通过样本级别关键路径,找寻到神经网络的模型级别关键路径。通过该路径来揭示噪音在模型中的传播与放大过程,在神经网络的训练过程中,通过对该路径进行限制,有效提升神经网络的鲁棒性。
技术领域
本发明涉及一种基于关键路径的神经网络训练方法,同时涉及相应的基于关键路径的神经网络训练装置,属于深度学习技术领域。
背景技术
近年来,深度学习已经在计算机视觉和自然语言处理等多个富有挑战性的领域中取得了卓越的成就。在实际应用中,深度学习通常应用于大型数据集,在这些从日常生活中收集的数据所构成的数据集中,不可避免地包含了大量的噪音,其中包括了对抗样本噪音和自然噪音。虽然这些噪音对于人类的认知和物体识别没有影响,但是它们能误导深度神经网络做出错误的决策,这对实践中机器学习在数字和物理世界的应用构成了严重的安全威胁。
与此同时,为何微小的噪音会造成深度神经网络做出完全错误的决策,深度模型在分类和判断时采取的依据是什么,这些都凸显了可解释性深度学习的重要性。因此,在最近的研究中,训练鲁棒的、可解释的深度神经网络受到了很高的重视。
众所周知,深度学习模型对于噪音的不稳定性一般出现在正向传播时某隐藏层特征图和神经元激活值的突变,因此每个神经单元和由神经单元组成的路径的稳定性显得至关重要,增强其噪声不敏感性并保证隐藏层的稳定行为将有助于保证稳健的模型。
发明内容
本发明所要解决的首要技术问题在于提供一种基于关键路径的神经网络训练方法。
本发明所要解决的另一技术问题在于提供一种基于关键路径的神经网络训练装置。
为了实现上述目的,本发明采用下述的技术方案:
根据本发明实施例的第一方面,提供一种基于关键路径的神经网络训练方法,包括如下步骤:
针对每个普通样本,获取神经网络的样本级别关键路径;
根据样本级别关键路径,按层次聚合得到神经网络的模型级别关键路径;
针对神经网络关键攻击路径,对神经网络进行训练。
其中较优地,所述针对神经网络关键攻击路径,对神经网络进行训练,具体包括:
设置训练集,所述训练集中每个训练样本由原始样本和对抗样本构成;
构建对原始样本和对抗样本的梯度进行惩罚的第一惩罚损失函数;
或者,构建对神经网络关键攻击路径的各关键攻击单元权重进行惩罚的第二惩罚损失函数;
将各训练样本输入至神经网络,利用第一惩罚损失函数或第二惩罚损失函数,对神经网络的每一层进行训练。
其中较优地,所述第一惩罚损失函数表达式为:
公式(1)中,x表示普通样本,x’表示对抗样本,y表示训练样本的分类标签,θ表示神经网络的模型参数,表示对抗训练损失函数,λ为第一惩罚损失函数的系数,表示神经网络关键攻击路径中各关键攻击单元的梯度和,其中:
在输入为普通样本条件下的各关键攻击单元的梯度和的表达式为:
公式(2)中,F表示神经网络的各层,表示神经网络关键攻击路径中第l层的第m个关键攻击单元,Ωl表示神经网络关键攻击路径中第l层的各关键攻击单元,表示原始损失函数对第l层的第m个关键攻击单元的梯度,表达式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010889881.2/2.html,转载请声明来源钻瓜专利网。