[发明专利]一种语句处理方法及装置、电子设备、计算机存储介质在审
申请号: | 202010611110.7 | 申请日: | 2020-06-29 |
公开(公告)号: | CN113935311A | 公开(公告)日: | 2022-01-14 |
发明(设计)人: | 蒋忠强;赵冬梅 | 申请(专利权)人: | 中移(苏州)软件技术有限公司;中国移动通信集团有限公司 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/56;G06F40/58;G06N3/08 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 姚璐;张颖玲 |
地址: | 215163 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语句 处理 方法 装置 电子设备 计算机 存储 介质 | ||
本申请公开了一种语句处理方法及装置、电子设备、计算机存储介质,所述方法包括:在利用神经机器翻译模型将第一源语言语句翻译为目标语言语句的过程中,确定所述第一源语言语句中的目标词语在所述过程中的解码阶段生成的至少一个候选单词,并确定所述候选单词的时态;利用时态预测模型对所述第一源语言语句中的目标词语的时态进行预测,确定所述第一源语言语句中的目标词语的预测时态;基于所述候选单词的时态以及所述预测时态确定所述候选单词的概率。
技术领域
本申请涉及神经机器翻译领域,尤其涉及一种语句处理方法及装置、电子设备、计算机存储介质。
背景技术
在机器翻译领域,时态是语言表达中的关键信息,将源语言文本的时态信息正确传递到目标语言文本是基本要求。以汉英机器翻译为例,在汉英机器翻译过程中,由于英语和汉语表现时态信息的方式具有较大的差异,英语作为屈折语言,通常使用动词的词形变化来表明不同的时态,而汉语则缺少动词的词形变化,通常需要借助时间名词、副词、助词等上下文信息才能判断出句子的正确时态,因此,将汉语翻译为英语的过程中,时态翻译成为汉英机器翻译的难点。
近几年,随着神经机器翻译(NMT,Neural Machine Translation)模型框架的提出和深入研发,机器翻译系统的翻译质量取得了突破性进展。尽管如此,当前的神经机器翻译模型在汉英翻译的时态翻译一致性方面还存在较为严重的问题。
在采用基线神经机器翻译系统翻译本领域通用的NIST2003汉英翻译测试集时,从该测试集中随机挑选200句,并做人工错误分析后发现,出现时态一致性错误的句子有61句,占比30%。相关统计结果见表1所示的基线NMT系统时态翻译问题调研结果。
从表1所示的统计结果可以看出,采用基线神经机器翻译系统对挑选的测试集样本进行翻译后,翻译结果存在的时态错误占据了很大比例。因此,需要采取相关方案处理汉英翻译时的时态一致性问题。
表1基线NMT系统时态翻译问题调研结果
在一种方案中,针对统计机器翻译框架,提供一种基于汉语语言模型N-gram的时态翻译模型,并与基于短语的统计机器翻译(SMT,Statistical Machine Translation)系统结合以提升翻译前后的时态一致性。在基于N-gram的时态模型中,称一个句子的主时态为文档级别的句间时态(即Inter Tense),而句子内每个目标词语的时态被称为句子级别的句内时态(即Intra Tense)。该实施方式采用了句间时态特征和句内时态特征两个特征,并通过相关算法从英文的句法分析结果中获取英文语料对应的句间时态和句内时态,进而利用这个标注时态的语料来训练基于N-gram的时态模型,之后根据这两个时态翻译模型的得分值来对解码端的所有假定译文进行重新打分,并找出得分最高的译文作为最终结果。该实施方式中,前一个句子翻译结束时,该句的主时态将被保存到解码端缓存中,并传递给下一句,直到文档翻译结束再清除这个主时态缓存。此实施方式实现了跨句子的目标端时态传递。采用此实施方式时,在建立的N-gram时态翻译模型时,针对的是目标端句子间的时态信息进行建模,一旦语篇中某些句子时态翻译错误,错误将传播到语篇中后续的句子;此外,此实施方式主要解决的是句间时态传递和一致性控制问题,未实现句内时态翻译一致性控制,当翻译过程没有上下句信息可以利用时,此实施方式将无法处理时态翻译的一致性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中移(苏州)软件技术有限公司;中国移动通信集团有限公司,未经中移(苏州)软件技术有限公司;中国移动通信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010611110.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:固体酸催化剂及其制备方法和烷基化反应的方法
- 下一篇:电子设备及摄像头组件