[发明专利]神经网络模型优化方法及相关设备在审
申请号: | 202111100770.X | 申请日: | 2021-09-18 |
公开(公告)号: | CN115841134A | 公开(公告)日: | 2023-03-24 |
发明(设计)人: | 孙云霄;周彧聪;钟钊 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06N3/0464 | 分类号: | G06N3/0464;G06N3/045;G06N3/082;G06N3/084 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 熊永强;李稷芳 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 神经网络 模型 优化 方法 相关 设备 | ||
1.一种神经网络模型优化方法,其特征在于,包括以下步骤:
对第一神经网络模型进行优化处理得到第二神经网络模型;其中,
所述第二神经网络模型包括优化注意力层和位于所述优化注意力层之前的至少两个在前网络层,所述至少两个在前网络层串联连接;所述优化注意力层包括优化质询Query特征变换模块、优化键Key特征变换模块以及优化值Value特征变换模块,
所述优化质询Query特征变换模块的输入是根据所述优化注意力层的至少一个在前网络层的输出特征得到的;
所述优化键Key特征变换模块的输入是根据所述优化注意力层的至少一个在前网络层的输出特征得到的;
所述优化值Value特征变换模块的输入是根据所述优化注意力层的至少一个在前网络层的输出特征得到的;
其中,所述优化质询Query特征变换模块、所述优化键Key特征变换模块、所述优化值Value特征变换模块中的至少一个特征变换模块的输入是根据所述优化注意力层的至少一个非相邻在前网络层的输出特征得到的。
2.根据权利要求1所述的方法,其特征在于,目标特征变换模块的输入为所述优化注意力层的至少一个在前网络层的输出特征;所述目标特征变换模块为所述优化质询Query特征变换模块、所述优化键Key特征变换模块、所述优化值Value特征变换模块中的任一个。
3.根据权利要求2所述的方法,其特征在于,所述第一神经网络模型包括串联连接的注意力层和位于所述注意力层之前的至少两个在前网络层,所述至少两个在前网络层串联连接;所述对第一神经网络模型进行优化处理得到第二神经网络模型,具体包括以下步骤:
确定所述第一神经网络模型的搜索空间,所述搜索空间中的元素包括所述注意力层中第一质询Query特征变换模块、第一键Key特征变换模块、第一值Value特征变换模块可连接的在前网络层;
利用基于所述搜索空间的搜索算法确定所述优化注意力层,其中,所述搜索算法用于根据搜索条件确定所述优化质询Query特征变换模块连接的第一在前网络层、所述优化键Key特征变换模块连接的第二在前网络层、所述优化值Value特征变换模块连接的第三在前网络层,所述第一在前网络层、所述第二在前网络层和所述第三在前网络层中的至少一个是所述优化注意力层的非相邻在前网络层。
4.根据权利要求3所述的方法,其特征在于,所述搜索算法包括进化算法、强化学习算法、网络结构搜索算法中的任一个。
5.根据权利要求3或4所述的方法,其特征在于,所述搜索空间中的元素还包括以下至少一项:所述第一神经网络模型可选的激活函数、所述第一神经网络模型可选的归一化操作、所述第一神经网络模型可选的特征图的操作类型、所述第一神经网络模型可选的并行支路个数、可选的搜索单元中的模块个数、除所述注意力层之外的在前网络层之间可选的连接方式。
6.根据权利要求1所述的方法,其特征在于,目标特征变换模块的输入为所述优化注意力层的至少两个在前网络层的输出特征和所述在前网络层的权重加权求和得到的输入特征;所述目标特征变换模块为所述优化质询Query特征变换模块、所述优化键Key特征变换模块、所述优化值Value特征变换模块中的任一个。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111100770.X/1.html,转载请声明来源钻瓜专利网。