[发明专利]一种中文分词方法及系统无效
申请号: | 200710076131.8 | 申请日: | 2007-06-26 |
公开(公告)号: | CN101082908A | 公开(公告)日: | 2007-12-05 |
发明(设计)人: | 张会鹏 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 深圳市顺天达专利商标代理有限公司 | 代理人: | 郭伟刚;蔡晓红 |
地址: | 518057广东省深圳市高新科*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及中文信息处理领域,提供了一种中文分词方法及系统。所述方法包括以下步骤:A.对输入的中文文本进行原子切分,并根据所得的原子序列建立初始的切分词图;B.基于原子序列分别进行词典词切分和特定词识别,并将各自的独立分词结果添加到所述切分词图中;C.根据所述切分词图中的各独立分词结果生成一条最优分词路径,并按照所述最优分词路径输出综合分词结果。本发明基于中文文本的原子序列分别进行词典词切分和特定词识别,根据各自的独立分词结果生成一条最优分词路径,最终按照该最优分词路径输出综合分词结果,从而提高了中文分词的准确性。另外,在特定词识别中,根据具体情况有选择地启动对各类特定词的识别,提高了中文分词的效率。 | ||
搜索关键词: | 一种 中文 分词 方法 系统 | ||
【主权项】:
1、一种中文分词系统,包括输入输出单元、原子切分单元、词典词切分单元和特定词识别单元,其特征在于,所述系统还包括一个切分词图单元和一个分词路径生成单元;所述切分词图单元与原子切分单元、词典词切分单元及特定词识别单元相连,用于将原子切分单元、词典词切分单元及特定词识别单元的独立分词结果分别保存在切分词图中;所述分词路径生成单元与切分词图单元相连,用于根据切分词图中的各独立分词结果生成一条最优分词路径,并按照所述最优分词路径输出综合分词结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200710076131.8/,转载请声明来源钻瓜专利网。
- 上一篇:空调器室外机
- 下一篇:一种发光二极管用的印刷电路板的制造方法与其结构