[发明专利]一种递归多层次中文分词方法有效
申请号: | 201210249911.9 | 申请日: | 2012-07-18 |
公开(公告)号: | CN102799676A | 公开(公告)日: | 2012-11-28 |
发明(设计)人: | 吕强;陶导;方强 | 申请(专利权)人: | 上海语天信息技术有限公司;上海莱希信息科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海旭诚知识产权代理有限公司 31220 | 代理人: | 郑立 |
地址: | 201204 上海市浦东新区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种递归多层次中文分词方法,包括:对输入的中文文本使用最大匹配算法进行中文分词,和在当前字典树中对所生成的分词进行选择性地屏蔽,然后重复进行利用屏蔽后的字典树对输入的中文文本再次使用最大匹配算法进行中文分词,和对所生成的分词进行选择性地屏蔽的步骤,直至所生成的各个分词在当前字典树中都不存在非单字前缀词,结束分词过程,输出分词结果并恢复屏蔽前的字典树。本发明的递归多层次中文分词方法在基于字符串匹配的细粒度切分中文分词算法的基础上,结合递归和多层次分词,实现了保证切分粒度的同时,在各个层次的分词中都消除歧义,提高了分词的准确度。 | ||
搜索关键词: | 一种 递归 多层次 中文 分词 方法 | ||
【主权项】:
一种递归多层次中文分词方法,其特征在于,包括如下步骤:步骤1,利用当前字典树对输入的中文文本使用最大匹配算法进行中文分词,生成当前分词和当前分词层次;步骤2,在当前字典树中对步骤1中所生成的分词进行选择性屏蔽;步骤3,将步骤2中选择性屏蔽后的字典树作为当前字典树;步骤4,判断上述步骤1中所生成的各个中文分词在所述当前字典树中是否存在非单字前缀词,若有一个分词存在非单字前缀词,则继续进行上述步骤1到步骤3,若各个分词都不存在非单字前缀词,则进入步骤5;步骤5,在当前字典树中将上述各步骤中屏蔽的中文分词重新插入当前字典树,并输出分词结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海语天信息技术有限公司;上海莱希信息科技有限公司,未经上海语天信息技术有限公司;上海莱希信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210249911.9/,转载请声明来源钻瓜专利网。
- 上一篇:从空气中制取低纯度氧气的深冷法分离方法及其装置
- 下一篇:LED标识灯