[发明专利]翻译语料生成方法、装置、计算机设备及存储介质有效

申请号：	202010207518.8	申请日：	2020-03-23
公开（公告）号：	CN111428523B	公开（公告）日：	2023-09-01
发明（设计）人：	袁星宇;黄杰	申请（专利权）人：	腾讯科技（深圳）有限公司
主分类号：	G06F40/58	分类号：	G06F40/58;G06F40/47;G06F40/166
代理公司：	北京三高永信知识产权代理有限责任公司 11138	代理人：	祝亚男
地址：	518057 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	翻译语料生成方法装置计算机设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种翻译语料生成方法、装置、计算机设备及存储介质，属于计算机技术领域。所述方法包括：获取待翻译语种的第一内容文本；确定与所述第一内容文本的内容相似度大于目标阈值的第二内容文本，所述第二内容文本为目标语种；显示所述第一内容文本和所述第二内容文本；响应于内容编辑事件，对所述第一内容文本和所述第二内容文本中任一内容文本进行编辑，基于编辑后的内容文本，生成所述待翻译语种与所述目标语种之间的翻译语料。本申请直接向用户提供不同语种且内容相似度较高的第一内容文本和对应的第二内容文本，使得用户只需对两者进行比对，并进行微调即可得到不同语种之间的翻译语料，提高了翻译语料生成的效率。

技术领域

本申请涉及计算机技术领域，尤其涉及一种翻译语料生成方法、装置、计算机设备及存储介质。

背景技术

由于不同语种之间的交流存在障碍，方便、快捷、准确的进行不同语种的翻译成为需求。采用深度学习方法训练得到翻译模型，使用该翻译模型进行不同语种的翻译是一种广泛使用的技术手段，而翻译模型的训练需要大量的翻译语料，如何为模型提供翻译语料成为值得关注的问题。

相关技术中，对于偏冷门的语种，依然需要专业领域的人士对每一句话或每一篇文章进行翻译，并且需要参考翻译字典或第三方翻译工具来辅助翻译。

上述技术在翻译语料的生成过程中，需要人工参考翻译字典或第三方翻译工具来进行不同语种的翻译，且手动输入全部的翻译内容，翻译语料生成的效率低。

发明内容

本申请实施例提供了一种翻译语料生成方法、装置、计算机设备及存储介质，可以提高翻译语料生成的效率。所述技术方案如下：

一方面，提供了一种翻译语料生成方法，所述方法包括：

获取待翻译语种的第一内容文本；

确定与所述第一内容文本的内容相似度大于目标阈值的第二内容文本，所述第二内容文本为目标语种，所述待翻译语种与所述目标语种为不同语种；

显示所述第一内容文本和所述第二内容文本；