[发明专利]神经网络模型优化方法及相关设备在审
申请号: | 202111100770.X | 申请日: | 2021-09-18 |
公开(公告)号: | CN115841134A | 公开(公告)日: | 2023-03-24 |
发明(设计)人: | 孙云霄;周彧聪;钟钊 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06N3/0464 | 分类号: | G06N3/0464;G06N3/045;G06N3/082;G06N3/084 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 熊永强;李稷芳 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 神经网络 模型 优化 方法 相关 设备 | ||
本方法通过处理第一神经网络模型得到第二神经网络模型,第二神经网络模型包括优化注意力层和至少两个在前网络层。其中,优化质询Query特征变换模块的输入是根据优化注意力层的至少一个在前网络层的输出特征得到的;优化键Key特征变换模块的输入是根据优化注意力层的至少一个在前网络层的输出特征得到的;优化值Value特征变换模块的输入是根据优化注意力层的至少一个在前网络层的输出特征得到的;优化质询Query特征变换模块、优化键Key特征变换模块、优化值Value特征变换模块中的至少一个特征变换模块的输入是根据优化注意力层的至少一个非相邻在前网络层的输出特征得到的。该方法增强了第二神经网络模型的表达能力。
技术领域
本发明实施例涉及人工智能领域,尤其涉及一种神经网络模型优化方法及相关设备。
背景技术
神经网络模型可以完成诸如目标检测、目标分类、机器翻译、语音识别等任务,因此在安防、交通、工业生产等各个领域被广泛使用。
其中,Transformer网络模型是不包含卷积层,完全由自注意力(Self-Attention)层、编码器注意力(Encoder-Attention)层和前馈(Feed-Forward)层构成的深度神经网络模型。得益于Self-Attention操作在全局感受野上提取特征的能力,Transformer网络模型在计算机视觉,自然语言处理等方面有着广泛的应用。其中,标准Transformer的网络结构如图1a所示,图1a、图1b是标准Transformer网络模型的结构示意图;标准Transformer网络模型由6个编码器(Encoder)和6个解码器(Decoder)组成。前馈层(图1a中的F)由全连接操作组成,负责提取数据在channel维度间的相关性;而Self-Attention层(图1a中S)主要由Self-Attention操作组成,提取数据另一维度(patch或token)的特征。而编码器注意力层是将编码器的输出特征与解码器的中间特征进行Attention操作。
进一步地,Transformer网络模型中所有Self-Attention层的质询(Query)特征转换模块,键(Key)特征转换模块和值(Value)特征转换模块的输入完全相同,即所有Self-Attention层的质询特征转换模块,键特征转换模块和值特征转换模块的输入均为其前一层的输出。参考图1b,以自注意力层位于模型的第六层为例,自注意力层的质询特征转换模块(图1b中的Q),键特征转换模块(图1b中的K)和值特征转换模块(图1b中的V)的输入均为模型中第五层的输出特征。因此,Transformer网络整体呈“直筒型”,这样的网络设计使得Transformer网络的输入连接方式固定,无法保证Transformer网络在所有任务上都能有良好的性能。
发明内容
本申请提供一种神经网络模型优化方法及相关设备,可以实现对神经网络模型的优化处理,改善模型的表达能力,以提升模型的性能。
第一方面,提供一种神经网络模型优化方法,包括以下步骤:对第一神经网络模型进行优化处理得到第二神经网络模型;其中,第二神经网络模型包括优化注意力层和位于优化注意力层之前的至少两个在前网络层,至少两个在前网络层串联连接;优化注意力层包括优化质询Query特征变换模块、优化键Key特征变换模块以及优化值Value特征变换模块,优化质询Query特征变换模块的输入是根据优化注意力层的至少一个在前网络层的输出特征得到的;优化键Key特征变换模块的输入是根据优化注意力层的至少一个在前网络层的输出特征得到的;优化值Value特征变换模块的输入是根据优化注意力层的至少一个在前网络层的输出特征得到的;其中,优化质询Query特征变换模块、优化键Key特征变换模块、优化值Value特征变换模块中的至少一个特征变换模块的输入是根据优化注意力层的至少一个非相邻在前网络层的输出特征得到的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111100770.X/2.html,转载请声明来源钻瓜专利网。