[发明专利]互联网中文简繁字转换系统及方法在审

专利信息
申请号: 201310215166.0 申请日: 2013-05-31
公开(公告)号: CN103559178A 公开(公告)日: 2014-02-05
发明(设计)人: 刘家丰;周思达;廖发源;谭茜霞;刘润泽 申请(专利权)人: 武汉中文百科网络有限公司;北京四海书同文国际文化交流中心
主分类号: G06F17/28 分类号: G06F17/28
代理公司: 北京华沛德权律师事务所 11302 代理人: 刘丽君
地址: 430035 湖北省武汉市*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 互联网 中文 简繁字 转换 系统 方法
【权利要求书】:

1.一种互联网中文简繁字转换系统,其特征在于,包括:

分词模块,用于对输入的语句进行分词,不同的语义分出不同的字和词组;

符号处理模块,用于对简体语句与繁体语句中的不相同符号进行转换;

词组处理模块,用于对分词后简体的词组进行繁体转换;

字处理模块,用于将简体字转换为繁体字;

综合处理模块,用于对简体和繁体字词在不同语境中的不同用法进行转换。

2.根据权利要求1所述的互联网中文简繁字转换系统,其特征在于,所述分词模块具体包括:

语句分词单元,用于将语句分成单个字;

组合词组单元,用于通过词库检索对所述每个字进行组合,获取所有可能的词组,得到所有词组的不同组合;

最短路径分词单元,用于对所述不同组合分别使用N最短路径计算出至少一个分词方案;

数字日期处理单元,用于针对所述至少一个分词方案进行数字、日期合并的处理;

名称处理单元,用于在所述合并处理后的分词方案中识别出人名、地名及翻译名;

二次最短路径分词单元,用于再次使用N最短路径获取最后的分词结果。

3.一种互联网中文简繁字转换方法,其特征在于,包括:

将输入的语句进行分词,不同的语义分出不同的字和词组;

将简体语句与繁体语句中的不相同符号进行转换;

对分词后简体的词组进行繁体转换;

将简体字转换为繁体字;

对简体和繁体字词在不同语境中的不同用法进行转换。

4.根据权利要求3所述的互联网中文简繁字转换方法,其特征在于,所述将输入的语句进行分词的步骤具体包括:

把语句分成单个字;

通过词库检索对所述每个字进行组合,获取所有可能的词组,得到所有词组的不同组合;

针对所述不同组合分别使用N最短路径计算出至少一个分词方案;

针对所述至少一个分词方案进行数字、日期合并的处理;

在所述合并处理后的分词方案中识别出人名、地名及翻译名;

再次使用N最短路径获取最后的分词结果。

5.根据权利要求4所述的互联网中文简繁字转换方法,其特征在于,所述使用N最短路径进行分词的步骤具体包括:

通过上一步得到词组组合,每个组合都以第一个词为起点,最后一个词为终点,从起点开始记录到达终点的所有路径,每个词之间存在着权重,记录每个路径的最终权重值之和,权重最少的路径为最短路径;所述权重由词的词性决定,所述N最短路径为最短路径保留最前的N个结果。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉中文百科网络有限公司;北京四海书同文国际文化交流中心,未经武汉中文百科网络有限公司;北京四海书同文国际文化交流中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310215166.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top