[发明专利]简体汉字和繁体汉字相互转换方法及其系统有效
申请号: | 200610111510.1 | 申请日: | 2006-08-21 |
公开(公告)号: | CN101131690A | 公开(公告)日: | 2008-02-27 |
发明(设计)人: | 刘绍明;钱冬蕾;苑春法;曹德芳;林静;翁耀 | 申请(专利权)人: | 富士施乐株式会社 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 北京天昊联合知识产权代理有限公司 | 代理人: | 陈源;张天舒 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 简体 汉字 繁体 相互 转换 方法 及其 系统 | ||
技术领域
本发明涉及一种中文字符的转换方法及其系统,尤其涉及一种简体汉字和繁体汉字相互转换方法及其系统。更具体地说,本发明涉及一种采用数据表映射技术与数据统计处理技术相结合来实现简体汉字和繁体汉字相互转换的方法及其系统。
背景技术
由于中国政府实行的汉字简化工作,在实现原有的汉字(下称繁体汉字)简化而使得汉字的推广和教育/教学获得进步的同时,也造成了汉字存在简体和繁体两种书写形式客观现实。例如在中国大陆和新加坡,虽然也偶见使用繁体汉字的场合,但是在绝大多数情况下都是使用简体汉字;而在中国的台湾、香港和澳门地区受教育和长大的华人,则多数几乎不能完全认识被简化的汉字而完全使用着原有的繁体字。
因此,为了让上述简体汉字使用区和繁体汉字使用区的人们能够完全相互读懂对方所书写的汉语,则需要对于书写的汉语中使用的简体字和繁体字不一样的汉字进行正确的转换。这种不一样包括以下两个方面。
第一方面是在从简体到繁体(或从繁体到简体)的转换过程中出现的一字对多字(以下简称“一对多”)的问题。例如,简体汉字的“发”可以对应于繁体汉字的“髪”和“發”两种选择,因此在不同的词汇中应该使用不同的繁体汉字“髪”和“發”,例如简体汉字“头发”应该转换为繁体汉字“頭髪”,而简体汉字“发展”应该转换为繁体汉字“發展”。
第二方面是在从简体到繁体(或从繁体到简体)的转换过程中出现的同一个字/词彼此叫法不同的问题。例如简体汉字中的“计算机软件”应该转换为繁体汉字中的“電腦軟體”,简体汉字中的“星期”应该转换为繁体汉字中的“禮拜”。
在已有技术中已经存在对于简体汉字和繁体汉字进行转换的技术。例如在中国专利公开CN1369833和CN1462966中都公开了简体汉字和繁体汉字相互转换的技术。这些专利文件全文结合在此作为参考。
在通常的情况下,简体和繁体汉字的相互转换是在GBK编码的简体字和BIG5编码的繁体字之间的相互转换。总结上述的已有技术中实施的简、繁体汉字的相互转换方案包括以下三种情况。
1.通过内码转换完成基于内码映射表的字到字的转换。字到字是指以字为单位进行转换,而基于内码映射表是指通过查找繁体→简体(简体→繁体)汉字映射表将繁体(简体)汉字转换与之对应的简体(繁体)汉字。
例如,将BIG5编码的繁体汉字“國”转换为6BK编码的简体汉字“国”,处理过程是通过查找繁体→简体汉字映射表把该汉字的内码B0EA转换为B9FA;反之,在简繁转换中,则是通过查找简体→繁体汉字映射表把该汉字的将内码B9FA转换为B0EA。
内码转换的优点在于:(1)实现简单,只需要有繁体→简体(简体→繁体)汉字映射表即可;(2)转换效率高,只需内码转换一步处理。
内码转换的缺点在于转换准确率低。由于映射表将每个繁体(简体)体汉字对应到唯一的简体(繁体)体汉字形,所以这种转换只能正确地处理一字对一字(以下简称“一对一”)映射的情况。而对于一对多映射的字,除了收入到映射表中的转换字外,其他可能的转换字被忽略了,这就不能保证转换的准确性。例如,在正确的转换下,简体的“头发”对应到繁体的“頭髮”;但按照采用内码的简体→繁体汉字映射表进行简体到繁体的转换时,由于简体字“发”全部被转换为繁体字“發”,“头发”被错误得转换为“頭發”。因此就造成了转换准确率低的问题。
2.通过词级转换完成基于词级映射表的词到词的转换。词到词是指以词为单位进行转换,基于词级映射表是指通过查找简体→繁体(繁体→简体)词级映射表完成转换。这个映射表的表项应该包括所有的汉语词语,其中不仅包括双汉字组成的词语,也包括单汉字的词语和三个汉字以上的词语。
转换过程中,首先将需要被转换的汉字串分成若干词,然后通过查找简体→繁体(繁体→简体)词级映射表以词为单位完成转换。例如,对简体字符串“梳头发”进行转换,首先将其分为单字词语“梳”和双字词语“头发”,然后在简体→繁体词级映射表中分别查找这两个词语,分别转换为繁体词语“梳”和“頭髮”,得到转换结果“梳頭髮”。繁体→简体转换的过程与之类似。
词级转换的优点在于:(1)可以较准确处理一对多映射汉字的转换;(2)只需一张映射表即可同时处理简体→繁体转换和繁体→简体转换;(3)转换效率较高,只需词语转换一步处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士施乐株式会社,未经富士施乐株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200610111510.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:抗静电涂布液组合物及高穿透率抗静电薄膜的制造
- 下一篇:蓝莓绿枝扦插催根方法