[发明专利]一种面向html标签翻译的机器翻译后处理方法在审
申请号: | 202211197757.5 | 申请日: | 2022-09-29 |
公开(公告)号: | CN115455995A | 公开(公告)日: | 2022-12-09 |
发明(设计)人: | 张文博 | 申请(专利权)人: | 语联网(武汉)信息技术有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/279;G06F16/958 |
代理公司: | 北京中北知识产权代理有限公司 11253 | 代理人: | 李新昂 |
地址: | 430000 湖北省武汉市武汉东*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 html 标签 翻译 机器翻译 处理 方法 | ||
本发明公开了一种面向html标签翻译的机器翻译后处理方法,包括有标签源语言句子、无标签源语言句子、机器翻译模型、html后处理模型、有标签译文。本发明的有益效果是:该方法分成机器翻译阶段和标签翻译阶段,实现了文本内容翻译和html标签翻译之间的解耦,因此几乎不会影响机器翻译的质量。因为机器翻译模型和后处理模型是无关的,所以该后处理模型可以搭配任何其他的商业机器翻译引擎使用,提高了灵活性。除此之外,后处理模型还能起到标记原文本和目标文本的内容,从而还可以用于术语替换等其他用途。
技术领域
本发明涉及一种机器翻译后的译文处理方法,具体为一种面向html标签翻译的机器翻译后处理方法,属于神经机器翻译技术领域。
背景技术
神经机器翻译以其出色的翻译质量成为目前主流的翻译方法。具体而言,其翻译方法是通过接受一个源语言句子作为输入,然后通过端到端的方式输一个目标语言句子。
但是,机器翻译引擎在处理网页内容翻译时,却存在一些问题:由于网页内容中含有大量html标签句子,这些句子中的html标签起着对网页文本的格式修饰作用,若机器翻译引擎在翻译文本时,忽略掉这些html标签,则翻译结果就会丢失掉网页的格式信息,用户就可能看到没有任何排版的文本内容,丢失重要的html标签甚至会导致网页加载失败,导致用户无法看到任何信息。
发明内容
本发明的目的就在于为了解决上述至少一个技术问题而提供一种面向html标签翻译的机器翻译后处理方法,该机器翻译后处理方法,在翻译网页文本时,不仅正确翻译网页中的文本内容,还将html标签正确地迁移至目标句子中。
本发明通过以下技术方案来实现上述目的:一种面向html标签翻译的机器翻译后处理方法,包括以下步骤
步骤一、有标签源语言句子,提取带标签的源语言句子中的文本内容,获取输入文本内容的带标签的源语言句子Stag;
步骤二、无标签源语言句子,使用正则表达式识别Stag中所有的标签,并删除所有的标签得到无标签的源语言句子Sno_tag;
步骤三、机器翻译模型,使用训练好的机器翻译模型翻译该源语言句子的文本内容得到机器翻译译文;
步骤四、通过合成html数据训练html后处理模型,得到后处理模型PE;
步骤五、有标签译文,将有标签源语言句子Stag和无标签译文Tno_tag拼接作为输入,利用训练好的后处理模型PE得到有标签译文Ttag。
作为本发明再进一步的方案:所述步骤三中,具体包括:
a.准备平行语料数据(S,T);
b.利用平行语料训练机器翻译模型MT;
c.步骤a和b可以替换为使用其他现有的商业机器翻译模型;
d.利用机器翻译模型MT将无标签源语言句子Sno_tag翻译成无标签译文Tno_tag。
作为本发明再进一步的方案:所述步骤四中,具体包括:
a.准备平行语料数据(S,T)和短语翻译表数据(Sphrase,Tphrase);
b.对平行语料每个句对分别判断其中是否存在一对短语对,并且只出现一次,若是则在该短语前后分别加上一对随机的标签,得到(S,T,Stag,Ttag)这样的四元组数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于语联网(武汉)信息技术有限公司,未经语联网(武汉)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211197757.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种换行符识别方法
- 下一篇:一种慢充电子锁的控制方法