[发明专利]应用路径信息改进结构化文档的翻译的方法和系统无效
申请号: | 200810161441.4 | 申请日: | 2008-09-25 |
公开(公告)号: | CN101685440A | 公开(公告)日: | 2010-03-31 |
发明(设计)人: | 申震杰;王芳;杨晓斌 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F17/28 | 分类号: | G06F17/28;G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 | 代理人: | 张 浩;高少蔚 |
地址: | 美国*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 应用 路径 信息 改进 结构 文档 翻译 方法 系统 | ||
技术领域
本发明涉及计算机系统,特别涉及包含结构化信息和可翻译元件的文档的翻译。
背景技术
包含结构化信息和可翻译元件的文档已知有XML(可扩展标记语言)文档。本领域的技术人员已经知道XML是文档的一种元语言。XML提供了一种定义包含例如文本和图片等内容的结构信息的方式,以及如何使用这种内容的指示。XML具有灵活性因此可用于描述各种数据类型的结构,因此已成为例如互联网上各种数据类型进行交换的通用格式。
XML文档在结构化信息中通常包括可翻译元件(例如元素或属性),尤其在源文件中。随着互联网的普及,经常希望本地化XML文档,将其中的可翻译元件从源文件翻译成另一种选定的语言。
附图7示意性地示出了常规的XML翻译过程。如附图标记701所示从原始XML文档获得提纲文件和XLIFF文件,具体地对原始XML文档进行文本提取,使用过滤程序从布局数据中分离出可以翻译的文本,分别产生提纲和XLIFF文件。过滤程序将不可翻译的部分保存在提纲文件中,所有可翻译的句子在提纲文件中被替换为特殊的记号(例如%%%1%%%,%%%2%%%)。而提取出的可翻译元件(即文本片段)保存在XLIFF文件中的各个翻译单元元素中(<trans-unit>)。提纲文件中使用的标记(例如%%%1%%%,%%%2%%%)作为对应的翻译单元的ID属性,以简化提纲文件和XLIFF文件之间的映射。在准备好XLIFF文件之后,将该文件发送给专业翻译人员进行翻译(见附图标记702)。如附图标记703所示,利用提纲文件中的标记与翻译后的XLIFF文件中翻译单元ID属性之间的映射,合并翻译后的XLIFF文件与提纲文件,形成目标输出格式的翻译文档。
常规的XML翻译过程由于需要在XML提纲文件标记可翻译元件,因此开销很大。同时在合并翻译后的XLIFF与提纲文件时也需要首先遍历XML提纲文件寻找可翻译元件再遍历XLIFF寻找具有相同ID的翻译后文本,同样开销很大。
发明内容
本发明的目的是提供一种新颖的用于翻译包含结构化信息的文档的方法和系统。
根据本发明的一个方面,一种用于翻译结构化文档的方法,包括如下步骤:
获取包括至少一个路径信息的配置文件,所述路径信息用于指定在所述结构化文档中至少一个可翻译元件的路径;
使用所述配置文件中的路径信息从所述结构化文档中提取所述可翻译元件,并使用所述路径信息作为所述可翻译元件的ID参数的至少一部分,以将提取出的所述可翻译元件及其ID参数组成翻译单元;以及
在将所述翻译单元中的可翻译元件翻译成选定的另一语种以产生翻译后的元件之后,使用所述翻译单元中的ID参数中的路径信息来定位所述结构化文档中的可翻译元件,并用所述翻译后的元件替换所述结构化文档中对应的可翻译元件。
相应地,一种用于翻译结构化文档的系统,包括:
获取装置,被配置成获取包括至少一个路径信息的配置文件,所述路径信息用于指定在所述结构化文档中至少一个可翻译元件的路径;
翻译单元产生器,被配置成使用所述配置文件中的路径信息从所述结构化文档中提取所述可翻译元件,并使用所述路径信息作为所述可翻译元件的ID参数的至少一部分,以将提取出的所述可翻译元件及其ID参数组成翻译单元;以及
转换装置,被配置成在将所述翻译单元中的可翻译元件翻译成选定的另一语种以产生翻译后的元件之后,使用所述翻译单元中的ID参数中的路径信息来定位所述结构化文档中的可翻译元件,并用所述翻译后的元件替换所述结构化文档中对应的可翻译元件。
相比现有技术,本发明可以获得如下至少一种有益效果:
本发明的方法和系统由于单独地采用了用于指定各个可翻译元件在结构化文档中的路径信息的配置文件,则可从结构化文档提取可翻译元件直接形成待翻译的中间格式文件,免除了产生提纲文件以及在结构化文档中标记可翻译元件的开销。
另外,由于中间格式文件采用指定各个可翻译元件在结构化文档中的路径信息作为翻译单元的ID参数,翻译后的中间格式文件可以直接与原结构化文档合并,因此免除了现有技术中在合并时需要遍历提纲文件和中间格式文件的需要,减少了文档翻译的开销。
同时由于本发明并未产生标记了可翻译元件的提纲文件,因此不会影响结构化文档的可读性。
进而由于现有技术中的提纲文件使用标记代替可翻译元件,I18N/L10N数据会与可翻译元件的数据相混合。本发明由于无需再单独地生成提纲文件则避免这种情况。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810161441.4/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置