[发明专利]生成简繁转换模板及基于模板进行简繁转换的方法、系统有效
申请号: | 201210284530.4 | 申请日: | 2012-08-10 |
公开(公告)号: | CN103577396B | 公开(公告)日: | 2017-04-12 |
发明(设计)人: | 朱纯深;郝天永 | 申请(专利权)人: | 香港城市大学 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 隆天知识产权代理有限公司72003 | 代理人: | 张艳杰,张浴月 |
地址: | 中国香*** | 国省代码: | 香港;81 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 生成 转换 模板 基于 进行 方法 系统 | ||
技术领域
本申请涉及一种中文简繁转换的方法及系统,尤其涉及一种生成简繁转换模板及基于模板进行简繁转换的方法、系统。
背景技术
中文文字有简体中文和繁体中文之分,在两岸四地的日常交流中经常需要将简体中文和繁体中文进行相互转换。此时,经常会遇到某些简体中文字符对应多个繁体中文字符的情况。例如,简体中文“里”可以对应繁体中文“里”或“裡”,简体中文“出”可以对应繁体中文“出”或“齣”,简体中文“发”可以对应繁体中文“髮”或“發”,反之亦然,例如繁体中文“乾”可以对应简体的“干”(葡萄干)和“乾”(乾隆、乾坤等),繁體中文“著”可以对应简体的“着”和“著”(著作)等。这种一对多情况可以在现有各类型模板的辅助下得到部分解决。然而在进行简繁转换时,经常会遇到包括一对多字符和各类型数字组成的混合词组(ad hoc numerical phrases),例如,“有40里”、“唱了两出”等。当前的简繁转换技术在转换该类型混合词组时具有如下缺陷:大部分这种混合词组不含常规词典条目或词汇条目,使用常规词典无法进行转换,同时由于数字的不可穷尽性,因此无法完整构建该类型的词典。例如,简体中文“有40里”中不含任何固定词条,因而“里”(在此,“里”表示500米的单位长度)会错误地转换为“裡”(在此,“裡”表示内部);又例如,简体中文“唱了两出”同样不含任何固定词条,“出”应该被转换为繁体中文“齣”,却被错误地转换为繁体中文“出”。此外,由于该混合词组随着数字的改变会生成无数的变型,这使得基于概率的转换模型如N-Gram模型会变得无效,或者不能以任何类型的模板列出,或是难以用任何转换系统处理。
发明内容
为了提高简繁转换精度和转换效率,本申请提供了一种生成简繁转换模板的方法及系统、基于模板进行简繁转换的方法及系统。
本申请的一个方案提供了一种生成简繁转换模板的方法,用于第一和第二混合词组之间的转换,所述第一和第二混合词组包括一对多字符和数字,所述第一混合词组为繁体混合词组和简体混合词组中的一种,所述第二混合词组为繁体混合词组和简体混合词组中的另一种,包括:
获取第一混合词组-第二混合词组候选对;
从所述第一混合词组-第二混合词组候选对中提取中间候选对;
从所述中间候选对中获取具有最大覆盖率的候选对;
使用所述具有最大覆盖率的候选对生成简繁转换模板。
本申请的另一个方案提供了一种简繁中文转换方法,用于第一和第二混合词组之间的转换,所述第一和第二混合词组包括一对多字符和数字,所述第一混合词组为繁体混合词组和简体混合词组中的一种,所述第二混合词组为繁体混合词组和简体混合词组中的另一种,包括:
获取第一混合词组;
用数字标识符取代所述第一混合词组中的所述数字,以获取第一中间混合词组;
从生成的模板中查找所述第一中间混合词组对应的第二中间混合词组;
根据所述数字标识符和所述第二中间混合词组获取所述第一混合词组对应的第二混合词组。
本申请的再一个方案提供了一种生成简繁转换模板的系统,用于第一和第二混合词组之间的转换,所述第一和第二混合词组包括一对多字符和数字,所述第一混合词组为繁体混合词组和简体混合词组中的一种,所述第二混合词组为繁体混合词组和简体混合词组中的另一种,包括:
候选对获取模块,获取第一混合词组-第二混合词组候选对;
中间候选对提取模块,用于从所述第一混合词组-第二混合词组候选对中提取中间候选对;
最大覆盖率候选对获取模块,用于从所述中间候选对中获取具有最大覆盖率的候选对;
模板生成模块,用于使用所述具有最大覆盖率的候选对生成简繁转换模板。
本申请的再一个方案提供了一种简繁中文转换系统,用于第一和第二混合词组之间的转换,所述第一和第二混合词组包括一对多字符和数字,所述第一混合词组为繁体混合词组和简体混合词组中的一种,所述第二混合词组为繁体混合词组和简体混合词组中的另一种,包括:
第一混合词组获取模块,用于获取第一混合词组;
第一中间混合词组获取模块,用于用数字标识符取代所述第一混合词组中的所述数字,以获取第一中间混合词组;
第二中间混合词组查找模块,用于从生成的模板中查找所述第一中间混合词组对应的第二中间混合词组;
第二混合词组获取模块,用于根据所述数字标识符和所述第二中间混合词组获取所述第一混合词组对应的第二混合词组。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于香港城市大学,未经香港城市大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210284530.4/2.html,转载请声明来源钻瓜专利网。