[发明专利]一种深度神经网络模型快速重构方法和系统在审
申请号: | 202010441785.1 | 申请日: | 2020-05-22 |
公开(公告)号: | CN111626407A | 公开(公告)日: | 2020-09-04 |
发明(设计)人: | 付琨;孙显;赵良瑾;张义;刁文辉;陈凯强;冯瑛超;刘迎飞;朱子聪 | 申请(专利权)人: | 中国科学院空天信息创新研究院 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
代理公司: | 北京安博达知识产权代理有限公司 11271 | 代理人: | 徐国文 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 深度 神经网络 模型 快速 方法 系统 | ||
1.一种深度神经网络模型快速重构方法,其特征在于,包括:
基于可分离卷积创建轻量化模型骨干网络;
基于抗遗忘训练策略,选择教师网络在扩展类数据集上对所述模型骨干网络的训练过程进行监督,得到学生网络;
其中,所述扩展类数据集包括:在已有类别的数据集中未出现类别的数据集;所述教师网络在已有类别的数据集上收敛。
2.如权利要求1所述的方法,其特征在于,所述可分离卷积创建轻量化的模型骨干网络,包括:
采用深度可分离卷积单元搭建轻量化模型网络;
设置宽度因子和分辨率因子,对所述轻量化模型网络的大小进行调整;
随机初始化所述轻量化模型网络的权重,得到模型骨干网络;
其中,所述轻量化模型网络的宽度和分辨率小于教师网络。
3.如权利要求1所述的方法,其特征在于,所述扩展类数据集的构建,包括:
在未出现类别的数据中,选择多尺度、多方向、位置任意、数量随机和分布疏密与已有类别的数据相当的数据,作为扩展类数据集。
4.如权利要求1所述的方法,其特征在于,所述基于抗遗忘训练策略,选择教师网络在扩展类数据集上对所述模型骨干网络的训练过程进行监督,得到对所述教师网络重构的学生网络,包括:
选择教师网络;
为所述模型骨干网络添加分布式dropout,使所述模型骨干网络在训练过程中学到的信息平均的分配在所述模型骨干网络的每一层神经元中;
使用基于软目标的模型知识蒸馏固定所述模型骨干网络的原有神经元参数,在未出现类别的数据集上使用相应类别标签对新加入的神经元参数权重进行订正,利用教师网络对已有类别和未出现类别的数据相应类别的预测结果进行约束,联合训练所有模型骨干网络的参数直至收敛,得到学生网络;
其中,新加入的神经元参数为对应未出现类别的神经元参数。
5.如权利要求1或4所述的方法,其特征在于,所述教师网络的选择,包括:
从多个教师网络中,选择在已有类数据上收敛精度超过预设阈值,且既有残缺结构又对特征层进行堆叠的教师网络。
6.如权利要求4所述的方法,其特征在于,所述在未出现类别的数据集上使用相应类别标签对新加入的神经元参数权重进行订正,包括:
在未出现类别的数据集上,将所述模型骨干网络对未出现类别的数据进行分类得到的结果和未出现类别的数据对应的类别标签输入基于IMM内矩匹配算法的可塑权重巩固损失函数;
以基于IMM内矩匹配算法的可塑权重巩固损失函数最小化为目标对新加入的神经元参数权重进行订正。
7.如权利要求4所述的方法,其特征在于,所述联合训练所有模型骨干网络的参数直至收敛,包括:
在联合训练所有模型骨干网络的参数的过程中,对所述模型骨干网络进行剪枝,得到所述模型骨干网络中指导所述模型骨干网络作出正确判断的关键网络神经元;
在未出现类别的数据集上的训练过程中,提高所述关键神经元的权重,提高所述模型骨干网络对已有类数据集的记忆力,降低所述模型骨干网络的神经元参数的数量,,使得所述模型骨干网络向同时满足已有类别和未出现类别数据方向收敛。
8.一种深度神经网络模型快速重构系统,其特征在于,包括:网络创建模块和网络训练模块;
所述网络创建模块,用于基于可分离卷积创建轻量化模型骨干网络;
所述网络训练模块,用于基于抗遗忘训练策略,选择教师网络在扩展类数据集上对所述模型骨干网络的训练过程进行监督,得到学生网络;
其中,所述扩展类数据集包括:在已有类别的数据集中未出现类别的数据集;所述教师网络在已有类别的数据集上收敛。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院空天信息创新研究院,未经中国科学院空天信息创新研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010441785.1/1.html,转载请声明来源钻瓜专利网。