[发明专利]一种信息处理方法、装置、计算机设备及存储介质有效
申请号: | 201910888623.X | 申请日: | 2019-09-19 |
公开(公告)号: | CN110781674B | 公开(公告)日: | 2023-10-27 |
发明(设计)人: | 吴晓琳 | 申请(专利权)人: | 北京小米智能科技有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/284;G06F40/289;G06N3/0455;G06N3/08 |
代理公司: | 北京善任知识产权代理有限公司 11650 | 代理人: | 康艳青 |
地址: | 100085 北京市海淀区清河*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 信息处理 方法 装置 计算机 设备 存储 介质 | ||
本公开是关于一种信息处理方法、装置、计算机设备及存储介质,所述方法包括:利用机器翻译模型的编码器对待翻译词句进行编码,得到编码信息;保存所述全局注意力参数;利用所述机器翻译模型的解码器,在所述待翻译词句中每一个词语的所述编码信息的解码循环中,根据所述全局注意力参数确定所述解码器的全局注意力;根据所述全局注意力获得对应所述解码循环中所要预测的词语的预测结果。由于会将解码时需要用到的全局注意力参数保存起来,因此,在解码器需要利用全局注意力参数确定全局注意力时可以直接调取存储的全局注意力参数,而不需要再次通过处理编码信息得到全局注意力参数,减少解码过程中的计算量;从而提高机器翻译模型的推理效率。
技术领域
本公开涉及计算机技术领域,尤其涉及信息处理方法、装置、计算机设备及存储介质。
背景技术
机器翻译模型是由编码器和解码器构成,其中,编码器用于对输入的句子进行编码,输入到解码器,解码器用于从前向后根据编码器的输出和前面已经翻译的结果进行下一步的推理或预测。相关技术中,机器翻译模型在工作时需要处理较多的数据量,因而导致利用机器翻译模型进行推理或预测的效率低等问题。
发明内容
根据本公开实施例的第一方面,提供一种信息处理方法,包括:
利用机器翻译模型的编码器对待翻译词句进行编码,得到所述编码信息;
基于所述编码信息,获取并存储全局注意力参数;
利用所述机器翻译模型的解码器,在所述待翻译词句中每一个词语的所述编码信息的解码循环中,根据所述全局注意力参数确定所述解码器的全局注意力;
根据所述全局注意力获得对应所述解码循环中所要预测的词语的预测结果。
可选地,所述全局注意力参数还包括至少以下之一:
基于所述待翻译词句中每一个词语的所述编码信息中的第一序列向量进行线性变换后得到第二序列向量;
基于所述待翻译词句中每一个词语的所述编码信息中的第一内容向量进行线性变换后得到的第二内容向量。
可选地,所述机器翻译模型包括N个编码器,所述N为编码器层的总层数,所述N为大于或等于2的正整数;
所述利用机器翻译模型的编码器对待翻译词句进行编码,得到编码信息,包括:
利用所述机器翻译模型中第n层的所述编码器对n-1层的所述编码器输出第n-1层的第一编码信息进行编码,得到第n层所述第二编码信息;
所述基于所述编码信息,获取并存储全局注意力参数,包括:
基于对应第n层的所述第二编码信息,获取并存储对应第n层的第一全局注意力参数以及第n层的层编号;其中,n为大于或等于2且小于或等于N的正整数。
可选地,所述机器翻译模型包括N个解码器,所述N为解码器的总层数;
所述方法还包括:
根据当前所在解码器的第n层的层编号,读取与第n层编码器的层编号对应保存的第n层的第一全局注意力参数;
所述利用机器翻译模型的解码器,在所述待翻译词句中每一个词语的所述编码信息的解码循环中,根据所述全局注意力参数确定所述解码器的全局注意力,包括:
利用所述机器翻译模型中第n层所述解码器,在所述待翻译词句中每一个词语的第n层的第二编码信息的解码循环中,根据第n层的所述第一全局注意力参数确定所述第n层的所述解码器的第一全局注意力。
可选地,所述方法还包括:
确定所述机器翻译模型的所述编码器和/或所述解码器中至少一层的归一化运算中R个第一归一化算子;其中,所述R为大于或等于2的正整数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京小米智能科技有限公司,未经北京小米智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910888623.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:文档验收方法、装置、计算机设备及存储介质
- 下一篇:文本分类方法和装置