[发明专利]一种面向html标签翻译的机器翻译后处理方法在审

申请号：	202211197757.5	申请日：	2022-09-29
公开（公告）号：	CN115455995A	公开（公告）日：	2022-12-09
发明（设计）人：	张文博	申请（专利权）人：	语联网（武汉）信息技术有限公司
主分类号：	G06F40/58	分类号：	G06F40/58;G06F40/279;G06F16/958
代理公司：	北京中北知识产权代理有限公司 11253	代理人：	李新昂
地址：	430000 湖北省武汉市武汉东***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种面向 html 标签翻译机器翻译处理方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种面向html标签翻译的机器翻译后处理方法，包括有标签源语言句子、无标签源语言句子、机器翻译模型、html后处理模型、有标签译文。本发明的有益效果是：该方法分成机器翻译阶段和标签翻译阶段，实现了文本内容翻译和html标签翻译之间的解耦，因此几乎不会影响机器翻译的质量。因为机器翻译模型和后处理模型是无关的，所以该后处理模型可以搭配任何其他的商业机器翻译引擎使用，提高了灵活性。除此之外，后处理模型还能起到标记原文本和目标文本的内容，从而还可以用于术语替换等其他用途。

技术领域

本发明涉及一种机器翻译后的译文处理方法，具体为一种面向html标签翻译的机器翻译后处理方法，属于神经机器翻译技术领域。

背景技术

神经机器翻译以其出色的翻译质量成为目前主流的翻译方法。具体而言，其翻译方法是通过接受一个源语言句子作为输入，然后通过端到端的方式输一个目标语言句子。

但是，机器翻译引擎在处理网页内容翻译时，却存在一些问题：由于网页内容中含有大量html标签句子，这些句子中的html标签起着对网页文本的格式修饰作用，若机器翻译引擎在翻译文本时，忽略掉这些html标签，则翻译结果就会丢失掉网页的格式信息，用户就可能看到没有任何排版的文本内容，丢失重要的html标签甚至会导致网页加载失败，导致用户无法看到任何信息。

发明内容

本发明的目的就在于为了解决上述至少一个技术问题而提供一种面向html标签翻译的机器翻译后处理方法，该机器翻译后处理方法，在翻译网页文本时，不仅正确翻译网页中的文本内容，还将html标签正确地迁移至目标句子中。

本发明通过以下技术方案来实现上述目的：一种面向html标签翻译的机器翻译后处理方法，包括以下步骤

步骤一、有标签源语言句子，提取带标签的源语言句子中的文本内容，获取输入文本内容的带标签的源语言句子S_tag；

步骤二、无标签源语言句子，使用正则表达式识别S_tag中所有的标签，并删除所有的标签得到无标签的源语言句子S_{no_tag}；

步骤三、机器翻译模型，使用训练好的机器翻译模型翻译该源语言句子的文本内容得到机器翻译译文；

步骤四、通过合成html数据训练html后处理模型，得到后处理模型PE；

步骤五、有标签译文，将有标签源语言句子S_tag和无标签译文T_{no_tag}拼接作为输入，利用训练好的后处理模型PE得到有标签译文T_tag。

作为本发明再进一步的方案：所述步骤三中，具体包括：

a.准备平行语料数据(S，T)；

b.利用平行语料训练机器翻译模型MT；

c.步骤a和b可以替换为使用其他现有的商业机器翻译模型；