[发明专利]一种数据处理方法及装置有效
申请号: | 201910469354.3 | 申请日: | 2019-05-31 |
公开(公告)号: | CN110175338B | 公开(公告)日: | 2023-09-26 |
发明(设计)人: | 李长亮;王怡然;郭馨泽;唐剑波 | 申请(专利权)人: | 北京金山数字娱乐科技有限公司;成都金山数字娱乐科技有限公司 |
主分类号: | G06F40/42 | 分类号: | G06F40/42;G06N3/02;G06N3/048 |
代理公司: | 北京智信禾专利代理有限公司 11637 | 代理人: | 吴肖肖 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 装置 | ||
本申请提供一种数据处理方法及装置,用于解码器,所述解码器包括至少一个解码层;对于每个解码层,所述方法包括:根据输入的参考待解码向量进行自注意力计算,得到第一子层向量;将第一子层向量以及输入的编码向量进行多头注意力计算,得到第二子层向量;将所述参考待解码向量和所述第二子层向量进行融合,得到融合向量;将融合向量进行线性变换,得到输出的解码向量,从而实现高阶子层和低阶子层的向量融合,有效利用高阶子层蕴含的语义信息和低阶子层蕴含的语法信息,从而保证了模型翻译效果的有效提升。
技术领域
本申请涉及计算机技术领域,特别涉及一种数据处理方法及装置、计算设备、计算机可读存储介质和芯片。
背景技术
Transformer翻译模型是一种编码器-解码器的网络结构,其中编码器对输入信息进行编码处理获得编码向量,然后解码器接收输入的参考待解码向量和编码器的编码向量进行解码,并将解码向量依次输入线性层和归一化层,最终获取相应的翻译结果。
参见图1,Transformer翻译模型的编码器由至少一个同构的编码层堆叠而成,解码器由至少一个同构的解码层堆叠而成。图1中的编码层和解码层各为6层。对于解码器来说,每一个解码层包含注意力机制子层和前馈网络子层两部分,各子层之间串行连接。通过多个解码层的堆叠,可以对信息进一步的抽象和融合,输出翻译结果。
目前,由图1可见,Transformer翻译模型在各个解码层中的数据流动是串行流动,最后的输出结果依赖于最后一个解码层的高阶子层信息,失去了对低阶子层信息的有效利用,从而影响了最终的翻译效果。
发明内容
有鉴于此,本申请实施例提供了一种数据处理方法及装置、计算设备、计算机可读存储介质和芯片,以解决现有技术中存在的技术缺陷。
本申请实施例公开了一种数据处理方法,用于解码器,所述解码器包括至少一个解码层;
对于每个解码层,所述方法包括:
根据输入的参考待解码向量进行自注意力计算,得到第一子层向量;
将第一子层向量以及输入的编码向量进行多头注意力计算,得到第二子层向量;
将所述参考待解码向量和所述第二子层向量进行融合,得到融合向量;
将融合向量进行线性变换,得到输出的解码向量。
可选地,对于第一个解码层,根据输入的参考待解码向量进行自注意力计算,得到第一子层向量,包括:根据输入的初始待解码向量作为参考待解码向量进行自注意力计算,得到第一子层向量。
可选地,对于除去第一个解码层的其他解码层,根据输入的参考待解码向量进行自注意力计算,得到第一子层向量,包括:根据输入的上一个解码层的解码向量作为参考待解码向量进行自注意力计算,得到第一子层向量。
可选地,在得到第一子层向量后,所述方法还包括:
将第一子层向量进行线性门控处理,得到第一子层线性向量;
将第一子层线性向量以及所述编码向量进行多头注意力计算,得到第二子层向量。
可选地,将所述参考待解码向量和所述第二子层向量进行融合,得到融合向量,包括:
将第二子层向量进行预处理,得到第二子层预处理向量,将所述参考待解码向量进行预处理,得到参考解码预处理向量;
将第二子层预处理向量和参考解码预处理向量拼接,然后通过激活函数进行计算,得到激活向量;
根据所述激活向量、所述第二子层向量和所述参考待解码向量进行计算,得到所述融合向量。
可选地,所述数据处理方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金山数字娱乐科技有限公司;成都金山数字娱乐科技有限公司,未经北京金山数字娱乐科技有限公司;成都金山数字娱乐科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910469354.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种文本展示方法及装置
- 下一篇:一种S型加减速的最优时间分配方法及装置