[发明专利]互联网中文简繁字转换系统及方法在审
申请号: | 201310215166.0 | 申请日: | 2013-05-31 |
公开(公告)号: | CN103559178A | 公开(公告)日: | 2014-02-05 |
发明(设计)人: | 刘家丰;周思达;廖发源;谭茜霞;刘润泽 | 申请(专利权)人: | 武汉中文百科网络有限公司;北京四海书同文国际文化交流中心 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 北京华沛德权律师事务所 11302 | 代理人: | 刘丽君 |
地址: | 430035 湖北省武汉市*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 互联网 中文 简繁字 转换 系统 方法 | ||
1.一种互联网中文简繁字转换系统,其特征在于,包括:
分词模块,用于对输入的语句进行分词,不同的语义分出不同的字和词组;
符号处理模块,用于对简体语句与繁体语句中的不相同符号进行转换;
词组处理模块,用于对分词后简体的词组进行繁体转换;
字处理模块,用于将简体字转换为繁体字;
综合处理模块,用于对简体和繁体字词在不同语境中的不同用法进行转换。
2.根据权利要求1所述的互联网中文简繁字转换系统,其特征在于,所述分词模块具体包括:
语句分词单元,用于将语句分成单个字;
组合词组单元,用于通过词库检索对所述每个字进行组合,获取所有可能的词组,得到所有词组的不同组合;
最短路径分词单元,用于对所述不同组合分别使用N最短路径计算出至少一个分词方案;
数字日期处理单元,用于针对所述至少一个分词方案进行数字、日期合并的处理;
名称处理单元,用于在所述合并处理后的分词方案中识别出人名、地名及翻译名;
二次最短路径分词单元,用于再次使用N最短路径获取最后的分词结果。
3.一种互联网中文简繁字转换方法,其特征在于,包括:
将输入的语句进行分词,不同的语义分出不同的字和词组;
将简体语句与繁体语句中的不相同符号进行转换;
对分词后简体的词组进行繁体转换;
将简体字转换为繁体字;
对简体和繁体字词在不同语境中的不同用法进行转换。
4.根据权利要求3所述的互联网中文简繁字转换方法,其特征在于,所述将输入的语句进行分词的步骤具体包括:
把语句分成单个字;
通过词库检索对所述每个字进行组合,获取所有可能的词组,得到所有词组的不同组合;
针对所述不同组合分别使用N最短路径计算出至少一个分词方案;
针对所述至少一个分词方案进行数字、日期合并的处理;
在所述合并处理后的分词方案中识别出人名、地名及翻译名;
再次使用N最短路径获取最后的分词结果。
5.根据权利要求4所述的互联网中文简繁字转换方法,其特征在于,所述使用N最短路径进行分词的步骤具体包括:
通过上一步得到词组组合,每个组合都以第一个词为起点,最后一个词为终点,从起点开始记录到达终点的所有路径,每个词之间存在着权重,记录每个路径的最终权重值之和,权重最少的路径为最短路径;所述权重由词的词性决定,所述N最短路径为最短路径保留最前的N个结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉中文百科网络有限公司;北京四海书同文国际文化交流中心,未经武汉中文百科网络有限公司;北京四海书同文国际文化交流中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310215166.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种静压支承试验台
- 下一篇:一种高速丝杠及丝杠副综合检查试验台