[发明专利]基于注意力的模型训练方法、装置及电子设备在审

申请号：	202210102176.2	申请日：	2022-01-27
公开（公告）号：	CN114494814A	公开（公告）日：	2022-05-13
发明（设计）人：	王健;韩钧宇	申请（专利权）人：	北京百度网讯科技有限公司
主分类号：	G06V10/82	分类号：	G06V10/82;G06N3/04;G06N3/08
代理公司：	北京银龙知识产权代理有限公司 11243	代理人：	尹倩
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于注意力模型训练方法装置电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开提供了一种基于注意力的模型训练方法、装置及电子设备，涉及人工智能技术领域，具体为深度学习、计算机视觉技术领域，可应用于图像处理、图像检测等场景。具体实现方案为：获取神经网络模型中注意力模块的注意力输出矩阵，基于神经网络模型的池化层对所述注意力输出矩阵的样本维度和数据块维度进行降维计算，确定池化后的第一输出矩阵；基于神经网络模型的卷积层对第一输出矩阵进行卷积操作，确定卷积后的第二输出矩阵，对第二输出矩阵中各个头的输出值进行归一化处理和加权处理，获得更新后的第二输出矩阵；基于更新后的第二输出矩阵获取更新后的注意力输出矩阵，并基于所述更新后的注意力输出矩阵训练所述神经网络模型。

技术领域

本公开涉及人工智能技术领域，具体为深度学习、计算机视觉技术领域，可应用于图像处理、图像检测等场景，具体涉及一种基于注意力的模型训练方法、装置及电子设备。

背景技术

随着计算机技术的不断发展，各种神经网络模型在诸如图像、文本、语音等领域得到了广泛应用，例如卷积神经网络(Convolutional Neural Network，CNN)作为一种具有深度结构的前馈神经网络，其通过卷积计算实现特征的提取，通过网络结构的加深实现特征从局部到全局的捕获，通过增加通道的方式实现多个维度特征的叠加。目前，技术人员需要具备大量的神经网络结构设计及参数调整经验，耗费大量的硬件资源经多次更换、实验不同结构的神经网络来获得神经网络结构。

发明内容

本公开提供了一种基于注意力的模型训练方法、装置及电子设备。

根据本公开的第一方面，提供了一种基于注意力的模型训练方法，包括：

获取神经网络模型中注意力模块的注意力输出矩阵，所述注意力输出矩阵包括头维度、样本维度和数据块维度；

基于所述神经网络模型的池化层对所述注意力输出矩阵的样本维度和数据块维度进行降维计算，确定池化后的第一输出矩阵；

基于所述神经网络模型的卷积层对所述第一输出矩阵进行卷积操作，确定卷积后的第二输出矩阵，并获取所述第二输出矩阵中各个头的输出值；

对所述第二输出矩阵中各个头的输出值进行归一化处理和加权处理，获得更新后的第二输出矩阵；

基于所述更新后的第二输出矩阵获取更新后的注意力输出矩阵，并基于所述更新后的注意力输出矩阵训练所述神经网络模型。

根据本公开的第二方面，提供了一种基于注意力的模型训练装置，包括：

获取模块，用于获取神经网络模型中注意力模块的注意力输出矩阵，所述注意力输出矩阵包括头维度、样本维度和数据块维度；

池化模块，用于基于所述神经网络模型的池化层对所述注意力输出矩阵的样本维度和数据块维度进行降维计算，确定池化后的第一输出矩阵；

卷积模块，用于基于所述神经网络模型的卷积层对所述第一输出矩阵进行卷积操作，确定卷积后的第二输出矩阵，并获取所述第二输出矩阵中各个头的输出值；