[发明专利]机器翻译结果打分方法和装置在审
申请号: | 202011395504.X | 申请日: | 2020-12-02 |
公开(公告)号: | CN112464676A | 公开(公告)日: | 2021-03-09 |
发明(设计)人: | 刘绍孔;李健;武卫东;陈明 | 申请(专利权)人: | 北京捷通华声科技股份有限公司 |
主分类号: | G06F40/51 | 分类号: | G06F40/51;G06F40/58 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
地址: | 100193 北京市海淀区东北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 机器翻译 结果 打分 方法 装置 | ||
1.一种机器翻译结果打分方法,其特征在于,包括:
接收用于翻译的源语言语料,所述源语言语料中包含多个待翻译句子;
初始的源语言翻译模型先将所述待翻译句子编码为一个源语言句子表示向量,再基于所述源语言句子表示向量解码得到目标语言翻译句子;
初始的目标语言翻译模型先将所述目标语言翻译句子编码为目标语言句子表示向量,再基于所述目标语言句子表示向量解码得到源语言翻译句子;
基于所述目标语言句子表示向量和所述源语言句子表示向量使用分数计算模型进行打分,得到翻译结果分数。
2.根据权利要求1所述方法,其特征在于,所述分数计算模型为经过训练后得到的模型,所述分数计算模型的训练包括:
收集分数计算模型训练语料,所述分数计算模型训练语料对至少包括两个翻译语句对,所述翻译语句对至少包括以下一者:源语言训练句子,源语言训练句子的句子表示向量,与所述源语言训练句子的文本含义相同的目标语言训练句子,目标语言训练句子的句子表示向量;
利用源语言训练句子的句子表示向量和目标语言训练句子的句子表示向量训练预设模型,训练的损失函数为
-∑(X,Y)VX×W×VY+L1(W) (1);
其中,X为源语言训练句子的编号,VX为源语言训练句子的句子表示向量,Y为与源语言训练句子的文本含义相同的目标语言训练句子的编号,VY目标语言训练句子的句子表示向量,L1(W)为预设的正则项,W为分数计算模型参数矩阵。
3.根据权利要求1所述方法,其特征在于,所述方法还包括:
收集源语言翻译模型训练语料,所述源语言翻译模型训练语料至少包括一个源语言翻译训练对,所述源语言翻译训练对至少包括以下一者:待翻译句子、待翻译句子对应的目标语言翻译句子,翻译结果分数;
将各个源语言翻译训练对的翻译结果分数转换为翻译权重,利用所有待翻译句子、翻译权重和目标语言翻译句子更新所述初始的源语言翻译模型。
4.根据权利要求1所述方法,其特征在于,所述方法还包括:
收集目标语言翻译模型训练语料,所述目标语言翻译模型训练语料至少包括一个目标语言翻译训练对,所述目标语言翻译训练对至少包括以下一者:待翻译句子、待翻译句子对应的目标语言翻译句子,翻译结果分数;
将各个目标语言翻译训练对的翻译结果分数转换为翻译权重,利用所有目标语言翻译句子、翻译权重和待翻译句子更新所述初始的目标语言翻译模型。
5.根据权利要求1所述方法,其特征在于,所述方法还包括:
判断翻译结果分数;
去除翻译结果分数低的目标语言翻译句子,保留翻译结果分数高的目标语言翻译句子。
6.一种机器翻译结果打分装置,其特征在于,包括:
语料接收模块,用于接收用于翻译的源语言语料,所述源语言语料中包含多个待翻译句子;
源语言翻译模块,配置有初始的源语言翻译模型,用于先将所述待翻译句子编码为一个源语言句子表示向量,再基于所述源语言句子表示向量解码得到目标语言翻译句子;
目标语言翻译模块,配置有初始的目标语言翻译模型,用于先将所述目标语言翻译句子编码为目标语言句子表示向量,再基于所述目标语言句子表示向量解码得到源语言翻译句子;
分数计算模块,用于基于所述目标语言句子表示向量和所述源语言句子表示向量使用分数计算模型进行打分,得到翻译结果分数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京捷通华声科技股份有限公司,未经北京捷通华声科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011395504.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种养殖护栏
- 下一篇:一种玉米致死性坏死病多重RPA检测方法