[发明专利]智能翻译模型的预训练方法、装置和存储介质有效
申请号: | 202010327224.9 | 申请日: | 2020-04-23 |
公开(公告)号: | CN111460838B | 公开(公告)日: | 2023-09-22 |
发明(设计)人: | 杨振;黄申 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/56 |
代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 孙之刚;陈岚 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 智能 翻译 模型 训练 方法 装置 存储 介质 | ||
1.一种智能翻译模型的预训练方法,包括:
获取预训练源语言语句和预训练目标语言语句,所述预训练源语言语句包括源语言词语,所述预训练目标语言语句包括目标语言词语;
基于所述源语言词语与所述目标语言词语之间的相似度,从所述目标语言词语中筛选所述源语言词语所对应的候选翻译词,每个所述源语言词语对应预设数量的候选翻译词;
根据所述源语言词语对应预设数量的候选翻译词,以及所述预设数量的候选翻译词中每个候选翻译词与所述源语言词语的相似度,构建生成概率翻译词典;
在所述概率翻译词典中查询与所述预训练语言语句中源语言词语对应的候选翻译词;
根据查询到的候选翻译词对所述预训练源语言语句中的至少一个源语言词语进行替换,得到所述预训练源语言语句对应的语言混合编码语句;
基于所述语言混合编码语句对初始翻译模型进行预训练,得到预训练翻译模型。
2.如权利要求1所述的方法,其特征在于,所述基于所述源语言词语与所述目标语言词语之间的相似度,从所述目标语言词语中筛选所述源语言词语所对应的候选翻译词,所述每个所述源语言词语对应预设数量的候选翻译词,包括:
遍历所述源语言词语中的源语言词语;
确定遍历到的源语言词语与每个目标语言词语之间的相似度;
基于所述相似度从所述目标语言词语中,筛选预设数量的与所述遍历到的源语言词语对应的候选翻译词,得到每个源语言词语对应预设数量的候选翻译词。
3.如权利要求2所述的方法,其特征在于,所述确定遍历到的源语言词语与每个目标语言词语之间的相似度,包括:
分别提取所述源语言词语的源语言词向量和所述目标语言词语的目标语言词向量;
将所述源语言词向量映射和所述目标语言词向量映射到同一向量空间,得到映射后的源语言词向量和映射后的目标语言词向量;
基于所述映射后的源语言词向量和所述映射后的目标语言词向量,计算遍历到的源语言词语与每个目标语言词语之间的相似度。
4.如权利要求2所述的方法,其特征在于,所述基于所述相似度从所述目标语言词语中,筛选预设数量的与所述遍历到的源语言词语对应的候选翻译词,得到每个源语言词语对应预设数量的候选翻译词,包括:
基于所述遍历到的源语言词语与每个目标语言词语的相似度,对目标语言词语进行排序;
从排序后的目标语言词语中筛选预设数量的候选翻译词,作为所述遍历到的源语言词语对应的候选翻译词,直至得到每个源语言词语所对应预设数量的候选翻译词。
5.如权利要求1所述的方法,其特征在于,所述根据查询到的候选翻译词对所述预训练源语言语句中的至少一个源语言词语进行替换,得到所述预训练源语言语句对应的语言混合编码语句,包括:
从所述预训练源语句中的源语言词语中,确定至少一个源语言词语作为待替换词语;
基于所述概率翻译词典对所述待替换词语对应的候选翻译词进行多项式采样,得到采样到的候选翻译词;
将采样到的候选翻译词对所述待替换词语进行替换,
得到所述预训练源语言语句对应的语言混合编码语句。
6.如权利要求5所述的方法,其中所述从所述预训练源语句中的源语言词语中,确定至少一个源语言词语作为待替换词语包括:
获取包含m个词语的源语言语句x=(x1,x2,......,xm),m为正整数;
选择所述源语言语句x的m个词语中的q个词语作为待替换词语,所述q为正整数且0<q<m,所述q个词语在所述源语言语句中是连续的、部分连续的或分离的。
7.如权利要求5所述的方法,其中所述从所述预训练源语句中的源语言词语中,确定至少一个源语言词语作为待替换词语包括:
获取包含m个词语的源语言语句x=(x1,x2,......,xm),m为正整数;
选择所述源语言语句x中从u到v的位置的部分x[u:v]作为待替换词语,其中0<u≤v<m。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010327224.9/1.html,转载请声明来源钻瓜专利网。