[发明专利]一种递归多层次中文分词方法有效
申请号: | 201210249911.9 | 申请日: | 2012-07-18 |
公开(公告)号: | CN102799676A | 公开(公告)日: | 2012-11-28 |
发明(设计)人: | 吕强;陶导;方强 | 申请(专利权)人: | 上海语天信息技术有限公司;上海莱希信息科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海旭诚知识产权代理有限公司 31220 | 代理人: | 郑立 |
地址: | 201204 上海市浦东新区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 递归 多层次 中文 分词 方法 | ||
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种递归多层次中文分词方法。
背景技术
中文分词指的是将一个汉字序列切分成一个一个单独的词,分词就是将连续的汉字序列按照一定的规范重新组合成词序列的过程。现有的中文分词算法大体可分为:基于字符串匹配的分词方法和基于统计的分词方法。基于字符串匹配的分词方法将汉字序列与一个“充分大的”词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功,即识别出一个词。按照扫描方向的不同,字符串匹配分词方法可以分为正向匹配算法和逆向匹配算法,按照不同长度优先匹配的情况,还可以分为最大匹配算法和最小匹配算法,按照分词的切分粒度还可以分为粗粒度切分和细粒度切分。基于字符串匹配的中文分词方法具有效率高,更新维护灵活,能够附带类型信息,具有一定的歧义消解能力的优点,但是对于未登录词的识别能力差。粗粒度切分可以消除歧义,但是切分粒度大,细粒度切分没有消除歧义的功能,但是切分粒度小。基于统计的分词方法,是从语料中学习字成词的统计信息,从而发现一些成词规则,其对未登录词有较好的识别能力,但是效率低,更新维护麻烦,周期长,同时分词的粒度偏向于细粒度切分。在当前的很多自然语言处理领域的应用和搜索引擎的应用中,考虑到切分粒度和分词效率的双重要求,采用细切分粒度的基于字符串匹配的分词方法,生成的分词包含多个层次但是没有消除歧义的功能。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是提供一种保证中文分词切分粒度的同时,还能在各个层次的分词中都消除歧义的,能够有效提升全切分的准确度的递归多层次中文分词方法。
为实现上述目的,本发明提供了一种递归多层次中文分词方法,包括如下步骤:
步骤1,利用当前字典树对输入的中文文本使用最大匹配算法进行中文分词,生成当前分词和当前分词层次;
步骤2,在当前字典树中对步骤1中所生成的分词进行选择性地屏蔽;
步骤3,将步骤2中选择性屏蔽后的字典树作为当前字典树;
步骤4,判断上述步骤1中所生成的各个中文分词在所述当前字典树中是否存在非单字前缀词,若有一个分词存在非单字前缀词,则继续进行上述步骤1到步骤3,若各个分词都不存在非单字前缀词,则进入步骤5;
步骤5,在当前字典树中将上述各步骤中屏蔽的中文分词重新插入当前字典树,并输出分词结果。
进一步地,步骤2中所述的选择性屏蔽具体为:对于每个分词,判断在字典树中是否存在该分词的非单字前缀词,若存在该分词的非单字前缀词,则在字典树中屏蔽该分词,并记录被屏蔽的分词,若不存在该分词的非单字前缀词,则不屏蔽该分词。
进一步地,步骤1还包括记录生成的当前分词及当前分词层次。
本发明的有益效果在于:该递归多层次中文分词方法在基于字符串匹配的细粒度切分中文分词算法的基础上,结合递归和多层次分词,实现了保证切分粒度的同时,在各个层次的分词中都消除歧义,提高了分词的准确度。
以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。
附图说明
图1是本发明的递归多层次中文分词方法的处理流程图。
具体实施方式
下面结合附图来具体说明本发明的实施例。
一种递归多层次中文分词方法,包括如下步骤:
步骤1,利用当前字典树对输入的中文文本使用最大匹配算法进行中文分词,生成当前分词和当前分词层次;
步骤2,在当前字典树中对步骤1中所生成的分词进行选择性地屏蔽;
步骤3,将步骤2中选择性屏蔽后的字典树作为当前字典树;
步骤4,判断上述步骤1中所生成的各个中文分词在所述当前字典树中是否存在非单字前缀词,若有一个分词存在非单字前缀词,则继续进行上述步骤1到步骤3,若各个分词都不存在非单字前缀词,则进入步骤5;
步骤5,在当前典树中将上述各步骤中屏蔽的中文分词重新插入当前字典树,并输出分词结果。
其中,上述步骤2中所述的选择性屏蔽具体为:对于每个分词,依次判断在字典树中是否存在该分词的非单字前缀词,若存在该分词的非单字前缀词,则在字典树中屏蔽该分词,并记录被屏蔽的该分词,若不存在该分词的非单字前缀词,则不屏蔽该分词。
其中,上述步骤1还包括记录生成的当前分词及当前分词层次,记录形式为(当前分词,当前分词层次)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海语天信息技术有限公司;上海莱希信息科技有限公司,未经上海语天信息技术有限公司;上海莱希信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210249911.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:从空气中制取低纯度氧气的深冷法分离方法及其装置
- 下一篇:LED标识灯