[发明专利]一种数据处理方法及装置有效

申请号：	201910469354.3	申请日：	2019-05-31
公开（公告）号：	CN110175338B	公开（公告）日：	2023-09-26
发明（设计）人：	李长亮;王怡然;郭馨泽;唐剑波	申请（专利权）人：	北京金山数字娱乐科技有限公司;成都金山数字娱乐科技有限公司
主分类号：	G06F40/42	分类号：	G06F40/42;G06N3/02;G06N3/048
代理公司：	北京智信禾专利代理有限公司 11637	代理人：	吴肖肖
地址：	100085 北京市海淀***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种数据处理方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提供一种数据处理方法及装置，用于解码器，所述解码器包括至少一个解码层；对于每个解码层，所述方法包括：根据输入的参考待解码向量进行自注意力计算，得到第一子层向量；将第一子层向量以及输入的编码向量进行多头注意力计算，得到第二子层向量；将所述参考待解码向量和所述第二子层向量进行融合，得到融合向量；将融合向量进行线性变换，得到输出的解码向量，从而实现高阶子层和低阶子层的向量融合，有效利用高阶子层蕴含的语义信息和低阶子层蕴含的语法信息，从而保证了模型翻译效果的有效提升。

技术领域

本申请涉及计算机技术领域，特别涉及一种数据处理方法及装置、计算设备、计算机可读存储介质和芯片。

背景技术

Transformer翻译模型是一种编码器-解码器的网络结构，其中编码器对输入信息进行编码处理获得编码向量，然后解码器接收输入的参考待解码向量和编码器的编码向量进行解码，并将解码向量依次输入线性层和归一化层，最终获取相应的翻译结果。

参见图1，Transformer翻译模型的编码器由至少一个同构的编码层堆叠而成，解码器由至少一个同构的解码层堆叠而成。图1中的编码层和解码层各为6层。对于解码器来说，每一个解码层包含注意力机制子层和前馈网络子层两部分，各子层之间串行连接。通过多个解码层的堆叠，可以对信息进一步的抽象和融合，输出翻译结果。

目前，由图1可见，Transformer翻译模型在各个解码层中的数据流动是串行流动，最后的输出结果依赖于最后一个解码层的高阶子层信息，失去了对低阶子层信息的有效利用，从而影响了最终的翻译效果。

发明内容

有鉴于此，本申请实施例提供了一种数据处理方法及装置、计算设备、计算机可读存储介质和芯片，以解决现有技术中存在的技术缺陷。

本申请实施例公开了一种数据处理方法，用于解码器，所述解码器包括至少一个解码层；

对于每个解码层，所述方法包括：

根据输入的参考待解码向量进行自注意力计算，得到第一子层向量；

将第一子层向量以及输入的编码向量进行多头注意力计算，得到第二子层向量；

将所述参考待解码向量和所述第二子层向量进行融合，得到融合向量；

将融合向量进行线性变换，得到输出的解码向量。

可选地，对于第一个解码层，根据输入的参考待解码向量进行自注意力计算，得到第一子层向量，包括：根据输入的初始待解码向量作为参考待解码向量进行自注意力计算，得到第一子层向量。

可选地，对于除去第一个解码层的其他解码层，根据输入的参考待解码向量进行自注意力计算，得到第一子层向量，包括：根据输入的上一个解码层的解码向量作为参考待解码向量进行自注意力计算，得到第一子层向量。

可选地，在得到第一子层向量后，所述方法还包括：