[发明专利]基于层预测的语言翻译的方法、设备、装置和介质在审
申请号: | 202111191528.8 | 申请日: | 2021-10-13 |
公开(公告)号: | CN113935338A | 公开(公告)日: | 2022-01-14 |
发明(设计)人: | 周浩;黄晨阳;牟力立;李磊;奥斯马尔·扎安 | 申请(专利权)人: | 北京有竹居网络技术有限公司 |
主分类号: | G06F40/42 | 分类号: | G06F40/42;G06F40/58;G06N3/04 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 李峥宇 |
地址: | 101299 北京市平*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 预测 语言 翻译 方法 设备 装置 介质 | ||
1.一种基于层预测的语言翻译的方法,包括:在翻译模型的解码器的多个隐式层中的第一隐式层处,
基于训练数据中包括的输入数据的编码,确定与所述第一隐式层相关联的第一隐式状态,所述训练数据包括以源语言表示的输入数据和以目标语言表示的输出数据,所述翻译模型用于将所述输入数据翻译为所述输出数据;
确定与所述输出数据相关联的预测信息;
基于所述第一隐式状态和所述预测信息,生成更新的第一隐式状态;以及
向所述多个隐式层中的所述第一隐式层之后的第二隐式层输出所述更新的第一隐式状态,以使得所述更新的第一隐式状态被作为与所述第二隐式层相关联的第二隐式状态。
2.根据权利要求1所述的方法,其中确定与所述第一隐式层相关联的所述第一隐式状态包括:
基于所述输出数据的长度确定与所述第一隐式状态相关联的多个位置;以及
确定所述第一隐式状态中的分别与所述多个位置相对应的多个部分。
3.根据权利要求2所述的方法,进一步包括基于以下来训练所述翻译模型:
生成与所述第一隐式层相关联的第一训练目标;以及
利用所述输入数据和所述输出数据来训练所述翻译模型,以使得所述第一训练目标满足第一预定条件。
4.根据权利要求3所述的方法,其中生成与所述第一隐式层相关联的所述第一训练目标包括:
确定所述输出数据与基于所述第一隐式状态的预测之间的差异;以及
基于所述差异来生成所述第一训练目标。
5.根据权利要求3所述的方法,其中训练所述翻译模型进一步包括:
生成与所述第二隐式层相关联的第二训练目标;以及
利用所述输入数据和所述输出数据来训练所述翻译模型,以使得所述第二训练目标满足第二预定条件。
6.根据权利要求5所述的方法,其中训练所述翻译模型进一步包括:
基于所述第一训练目标和所述第二训练目标确定所述翻译模型的训练目标;以及
利用所述输入数据和所述输出数据来训练所述翻译模型,以使得所述训练目标满足预定条件。
7.根据权利要求2所述的方法,其中确定与所述输出数据相关联的所述预测信息包括:针对所述多个位置中的给定位置,基于以下任一项来确定针对所述给定位置的预测信息:
所述翻译模型;以及
所述输出数据中的与所述给定位置相对应的真值数据。
8.根据权利要求7所述的方法,其中生成所述更新的第一隐式状态包括:基于所述第一隐式状态中的与所述给定位置相对应的部分和针对所述给定位置的预测信息,生成所述更新的第一隐式状态中的与所述给定位置相对应的部分。
9.根据权利要求7所述的方法,其中生成所述更新的第一隐式状态包括:
获取基于所述翻译模型确定的所述预测信息和基于所述输出数据确定的所述预测信息的混合比例;以及
基于所述混合比例、所述第一隐式状态和所述预测信息,生成所述更新的第一隐式状态。
10.根据权利要求1所述的方法,进一步包括:
基于所述第二隐式状态和所述预测信息,生成更新的第二隐式状态;以及
向所述多个隐式层中的所述第二隐式层之后的第三隐式层输出所述更新的第二隐式状态,以使得所述更新的第二隐式状态被作为与所述第三隐式层相关联的第三隐式状态。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京有竹居网络技术有限公司,未经北京有竹居网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111191528.8/1.html,转载请声明来源钻瓜专利网。