[发明专利]一种机器翻译方法和装置在审
申请号: | 202110694026.0 | 申请日: | 2021-06-22 |
公开(公告)号: | CN113435215A | 公开(公告)日: | 2021-09-24 |
发明(设计)人: | 刘绍孔;李健;武卫东;陈明 | 申请(专利权)人: | 北京捷通华声科技股份有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/211;G06F40/30;G06N3/04 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
地址: | 100193 北京市海淀区东北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 机器翻译 方法 装置 | ||
本发明提供了一种机器翻译方法和装置,涉及机器翻译技术领域。本发明提供的机器翻译方法和装置,首先获取对编码器生成的语义向量进行解码得到的翻译结果,并获取翻译结果的目标评价参数;然后基于翻译结果的目标评价参数,调整当前设置的集束搜索相关参数;最后根据调整后的集束搜索相关参数,更新翻译结果。本发明的方案能够改善翻译效果较差的句子,保证翻译效果,使翻译的句子更加准确和通顺。
技术领域
本发明涉及机器翻译技术领域,特别是涉及一种机器翻译方法和装置。
背景技术
机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。同时,机器翻译又具有重要的实用价值。随着经济全球化及互联网的飞速发展,机器翻译技术在促进政治、经济、文化交流等方面起到越来越重要的作用。
目前在采用神经网络进行机器翻译时,为了降低计算的时间和空间复杂度,在解码过程中往往使用集束搜索的方法(Beam Search),即每一步解码时,只保留当前翻译效果最好的几个。这在本质上是一种广度优先搜索(Breadth First Search,BFS)加剪枝的方法,并不能保证得到全局最优的解。最优解或者比当前翻译效果好的次优解可能在剪枝过程中已经被过滤掉。因此采用集束搜索有时翻译效果较差,甚至会遇到同一内容连续重复出现的现象,严重影响机器翻译的使用体验。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种机器翻译方法和装置。
依据本发明的第一方面,提供了一种机器翻译方法,包括:
获取对编码器生成的语义向量进行解码得到的翻译结果,并获取所述翻译结果的目标评价参数;
基于所述翻译结果的目标评价参数,调整当前设置的集束搜索相关参数;
根据调整后的集束搜索相关参数,更新所述翻译结果。
可选的,基于所述翻译结果的目标评价参数,调整当前设置的集束搜索相关参数的步骤包括:
基于所述翻译结果的目标评价参数,以及预先建立的目标评价参数与集束搜索相关参数之间的对应关系,确定目标集束搜索相关参数;
根据所述目标集束搜索相关参数,调整当前设置的集束搜索相关参数。
可选的,根据所述目标集束搜索相关参数,调整当前设置的集束搜索相关参数的步骤包括:
将所述目标集束搜索相关参数与当前设置的集束搜索相关参数进行比较;
当所述目标集束搜索相关参数大于当前设置的集束搜索相关参数时,扩大当前设置的集束搜索相关参数。
可选的,获取所述翻译结果的目标评价参数的步骤包括:
获取以下至少一项:所述翻译结果的句长与所述翻译结果进行去重处理后的句长之间的第一比值、所述翻译结果的句长与待翻译的句子长度之间的第二比值、翻译得分信息。
可选的,基于所述翻译结果的目标评价参数,调整当前设置的集束搜索相关参数的步骤包括:
基于所述第一比值和所述翻译得分信息,调整当前设置的集束搜索相关参数;或者
基于所述第一比值、所述第二比值和所述翻译得分信息,调整当前设置的集束搜索相关参数。
可选的,所述集束搜索相关参数包括以下至少一项:集束的宽度、长度惩罚值。
依据本发明的第二方面,提供了一种机器翻译装置,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京捷通华声科技股份有限公司,未经北京捷通华声科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110694026.0/2.html,转载请声明来源钻瓜专利网。