[发明专利]一种面向html标签翻译的机器翻译后处理方法在审
申请号: | 202211197757.5 | 申请日: | 2022-09-29 |
公开(公告)号: | CN115455995A | 公开(公告)日: | 2022-12-09 |
发明(设计)人: | 张文博 | 申请(专利权)人: | 语联网(武汉)信息技术有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/279;G06F16/958 |
代理公司: | 北京中北知识产权代理有限公司 11253 | 代理人: | 李新昂 |
地址: | 430000 湖北省武汉市武汉东*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 html 标签 翻译 机器翻译 处理 方法 | ||
1.一种面向html标签翻译的机器翻译后处理方法,其特征在于,所述机器翻译后处理方法包括以下步骤:
1)提取带标签的源语言句子中的文本内容;
2)使用机器翻译模型翻译所述源语言句子的文本内容得到机器翻译译文;
3)将带标签的所述源语言句子以及所述机器翻译译文作为html后处理模型的输入,得到带有标签的机器翻译译文。
2.根据权利要求1所述的机器翻译后处理方法,其特征在于,所述步骤1)中:对于输入的带标签的源语言句子,记为Stag;并使用正则表达式识别Stag中所有的标签,同时删除所有的标签得到无标签的源语言句子Sno_tag。
3.根据权利要求2所述的机器翻译后处理方法,其特征在于,所述步骤2)具体包括:
a)准备平行语料数据(S,T);
b)利用平行语料训练机器翻译模型MT;
c)步骤a和b可以替换为使用其他现有的商业机器翻译模型;
d)利用机器翻译模型MT将无标签源语言句子Sno_tag翻译成无标签译文Tno_tag。
4.根据权利要求2所述的机器翻译后处理方法,其特征在于:所述步骤3)中包括:
a)训练html后处理模型;
b)将有标签源语言句子Stag和无标签译文Tno_tag拼接作为输入;
c)利用训练好的后处理模型PE得到有标签译文Ttag。
5.根据权利要求4所述的机器翻译后处理方法,其特征在于:
所述html后处理模型包括:
1)准备平行语料数据(S,T)和短语翻译表数据(Sphrase,Tphrase);
2)对平行语料数据中的每个句对分别判断每个句对中是否存在一对短语对,并且所述一对短语对只出现一次,若是则在该短语前后分别加上一对随机的标签,得到(S,T,Stag,Ttag)这样的四元组数据;
3)对四元组数据按照节点对应关系进行过滤:若源语言S中的短语Sphrase包含一个子短语,而目标句对应的Tphrase没有对应的子短语,则删除该数据;
4)将四元组数据中的Stag和T拼接起来作为html后处理模型的输入,Ttag作为html后处理模型的训练目标训练后处理模型PE。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于语联网(武汉)信息技术有限公司,未经语联网(武汉)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211197757.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种换行符识别方法
- 下一篇:一种慢充电子锁的控制方法