[发明专利]基于通道注意力机制的神经网络压缩方法及相关设备在审
申请号: | 201910026547.1 | 申请日: | 2019-01-11 |
公开(公告)号: | CN109858611A | 公开(公告)日: | 2019-06-07 |
发明(设计)人: | 金戈;徐亮 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
代理公司: | 北京市京大律师事务所 11321 | 代理人: | 刘立天 |
地址: | 518033 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 神经网络模型 注意力机制 神经网络 权重 压缩 申请 人工智能领域 训练过程 连接层 构建 注意力 | ||
本申请涉及人工智能领域,本申请公开了一种基于通道注意力机制的神经网络压缩方法及相关设备,所述方法包括:构建神经网络模型,并在所述神经网络模型中建立通道注意力机制,所述神经网络模型包含多个通道;对所述神经网络模型进行训练;在对所述神经网络模型的训练过程中根据所述通道注意力机制对所述神经网络模型中的通道进行删减。本申请通过在神经网络模型的全连接层前加入通道注意力层,并计算通道权重,将权重低的通道进行删减,实现对神经网络的压缩。
技术领域
本申请涉及人工智能领域,特别涉及一种基于通道注意力机制的神经网络压缩方法及相关设备。
背景技术
卷积神经网络(CNN)由输入层、卷积层、激活函数、池化层、全连接层组成,即INPUT(输入层)-CONV(卷积层)-RELU(激活函数)-POOL(池化层)-FC(全连接层),全连接层的每一个结点都与上一层的所有结点相连,用来把前边提取到的特征综合起来。由于其全相连的特性,一般全连接层的参数也是最多的。全连接层(fullyconnectedlayers,FC)在整个卷积神经网络中起到“分类器”的作用,目前由于全连接层参数冗余(仅全连接层参数就可占整个网络参数80%左右),运算时间耗时很久,且大量占用资源,效率低下。因此有必要对卷积神经网络进行压缩。
发明内容
本申请的目的在于针对现有技术的不足,提供一种基于通道注意力机制的神经网络压缩方法及相关设备,通过在神经网络模型的全连接层前加入通道注意力层,并计算通道权重,将权重低的通道进行删减,实现对神经网络的压缩。
为达到上述目的,本申请的技术方案提供一种基于通道注意力机制的神经网络压缩方法及相关设备。
本申请公开了一种基于通道注意力机制的神经网络压缩方法,包括以下步骤:
构建神经网络模型,并在所述神经网络模型中建立通道注意力机制,所述神经网络模型包含多个通道;
对所述神经网络模型进行训练;
在对所述神经网络模型的训练过程中根据所述通道注意力机制对所述神经网络模型中的通道进行删减。
较佳地,所述构建神经网络模型,并在所述神经网络模型中建立通道注意力机制,所述神经网络模型包含多个通道,包括:
构建神经网络模型,在所述神经网络模型中的全连接层与卷积层之间构建通道注意力层,并在所述通道注意力层中设置softmax函数,所述通道注意力层中的每个通道与所述神经网络模型中的每个通道一一对应;
根据所述softmax函数为所述通道注意力层中的每个通道分配通道权重。
较佳地,所述根据所述softmax函数为所述通道注意力层中的每个通道分配通道权重,包括:
获取输入信息并将所述输入信息通过所述神经网络模型中的卷积层的卷积运算以及所述通道注意力层的通道权重运算后获得当前时刻的隐层输出向量;
计算上一时刻的隐层输出向量与所述输入信息之间的相似度,将所述相似度输入所述softmax函数并进行归一化处理,获得所述通道注意力层中的每个通道的通道权重。
较佳地,所述对所述神经网络模型进行训练,包括:
对所述神经网络模型根据公式:
进行训练,获得所述神经网络模型的参数Wij和θ,其中,Yi表示神经元i的输出,函数f表示激活函数,Wij表示神经元j到神经元i的连接权值,θ表示偏置,Xj表示神经元j的输入。
较佳地,所述对所述神经网络模型进行训练,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910026547.1/2.html,转载请声明来源钻瓜专利网。