[发明专利]不同语种XML文档的转换方法及装置无效
申请号: | 200910244003.9 | 申请日: | 2009-12-24 |
公开(公告)号: | CN101866331A | 公开(公告)日: | 2010-10-20 |
发明(设计)人: | 李宁;侯霞;吴志刚;方春燕 | 申请(专利权)人: | 北京信息科技大学;工业和信息化部电子工业标准化研究所 |
主分类号: | G06F17/22 | 分类号: | G06F17/22;G06F17/30 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 刘芳 |
地址: | 100101*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 不同 语种 xml 文档 转换 方法 装置 | ||
技术领域
本发明实施例涉及计算机信息交换领域,尤其涉及一种不同语种可扩展标记语言(eXtensible Markup Language,简称XML)文档的转换方法及装置。
背景技术
信息的国际化交换和本地化表示是一种信息处理技术发展中的长期的需求。信息的国际化交换和本地化表示技术已从早期的字符集编码转换发展到更高的信息结构和语义转换的层次。支持结构化信息表示的XML技术目前已经成为全球信息共享的基础之一。如何使XML的数据表示同时满足国际化和本地化需求是亟待解决的、意义深远的问题。
在以往XML的数据表示国际化和本地化技术发展中,人们主要专注于通过良好的XML构造习惯使之便于进行多语种转换,其重点是元素内容的翻译,而元素名称和属性名称的转换一直是使用中被极力回避的问题。业界目前还没有形成一种完全并且通用的方法来实现XML最需要的元素名称和属性名称的多语种转换。
一类方法是通过定义和使用词汇表的方式提供多语种XML文档转换。例如语料编码标准(Corpus Encoding Standard,简称CES)、通用语言环境数据仓库(Common Locale Data Repository,简称CLDR)等。其实质是通过定制的方法创建置标词汇表(或库),用于源语言和目标语言之间的翻译和转换。此类方法存在的问题是:需要在集中式的管理机制下预先创建转换词汇表以支持有限语种间的翻译;而且由于不同语种语义的不同,经过多次翻译后很难保持原XML元素和属性名称所表达的精确含义。
如果采用这类方法,一个制定和发布某种XML文档类型的机构发布的一个语种的文档大纲(Schema)版本和XML实例文档被多次翻译之后其中的元素和属性名称会偏离原始的含义。在这种情况下,如果要对日后来自任何语种使用人群的同类型文档进行处理,就需要很大的维护工作量。这种情况使得多语种的XML数据的处理和共享非常困难,经过翻译后XML文档不能够保持XML元素和属性名称所表达含义的精确性,也使XML的应用受到多语言的障碍,不具有通用性、灵活性和实用性。
中国的国家标准“标文通”(Unified Office document Format,简称UOF)1.0在此方面做了一些努力,提供了一种多语种XML文档转换的方法。该方法中,对进行语种转换的元素,在实例中设置不可改变的、唯一的标识符属性和属性次序属性;当需要进行XML实例文档转换时,依据事先设计的转换规则,将待转换的语种的XML实例文档转换为目标语种的XML实例文档。该方法的问题在于:通过添加属性来表达标识符和属性次序信息的方法,在一定程度上会带来XML文档处理数据量的增加,同时将简单元素变为复制元素也会增加处理的复杂度。
发明内容
本发明实施例提供一种不同语种XML文档的转换方法及装置,用以解决现有技术中一个语种的XML文档被多次翻译之后,翻译后的语种的XML文档中的元素和属性名称再次转换成原始语种的XML文档时,其中的元素和属性名称偏离原始含义的问题,以及现有技术中XML文档转换会带来XML文档处理数据量增加和处理复杂度提高的问题。通过本发明可实现不同语种XML文档的转换,使得一个语种的XML文档被多次翻译之后,翻译后的语种的XML文档中的元素和属性名称再次转换成原始语种的XML文档时,其中的元素和属性名称不偏离原始含义,并且不会导致XML文档数据量的显著增加。
为了解决上述问题,本发明实施例提供了一种不同语种XML文档的转换方法,包括:
步骤1、判断待转换的语种的XML实例文档中是否存在需要转换的元素或属性命名;如果存在,执行步骤2;如果不存在,执行步骤3;
步骤2、提取待转换的语种的XML实例文档中需要转换的元素或属性命名中的标识符的值,将所述待转换的语种的XML实例文档中的需要转换的元素或属性命名转换成具有相同标识符的值的待生成的目标语种XML实例文档的元素或属性命名,然后执行步骤1;所述元素或属性命名包括所述元素或属性名称和用于在预先定义的命名空间中唯一标识所述名称的标识符;
步骤3、结束转换。
其中,步骤2可以包括:
步骤21、提取所述待转换的语种的XML实例文档中需要转换的元素或属性命名中的标识符的值;
步骤22、判断目标语种的大纲中是否存在标识符的值与所述步骤21中提取出的标识符的值相同的元素或属性命名,如果存在,执行步骤23;如果不存在,执行步骤24;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京信息科技大学;工业和信息化部电子工业标准化研究所,未经北京信息科技大学;工业和信息化部电子工业标准化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910244003.9/2.html,转载请声明来源钻瓜专利网。