[发明专利]一种基于词库的动态规划中文分词方法在审
申请号: | 201410507974.9 | 申请日: | 2014-09-29 |
公开(公告)号: | CN104252542A | 公开(公告)日: | 2014-12-31 |
发明(设计)人: | 孙珂;田冰川;张道强 | 申请(专利权)人: | 南京航空航天大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 南京钟山专利代理有限公司 32252 | 代理人: | 戴朝荣 |
地址: | 210000 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 词库 动态 规划 中文 分词 方法 | ||
技术领域
本发明涉及中文信息自动处理技术领域,尤其是一种基于词库的动态规划中文分词方法。
背景技术
随着信息时代的到来,中文信息资源越来越多,如何在浩如烟海的中文信息世界中找到自己需要的资料是一个十分重要的课题。由于数据量剧增,手工处理已经变的不太现实。自动化处理方法帮助人们检索、管理信息,来解决现在社会信息丰富而知识贫乏的现状。目前已经出现了很多自动化的工具诸如自动摘要、自动文件检索等语言处理技术,这些技术的一个核心关键是主题词。对于主题词的提取有助于简化此类工作,而如何找到主题词是需要分词技术的。
中文分词是中文文本信息处理中最为关键的预处理,是文本挖掘的基础。中文分词是其他中文信息处理的基础,例如中文搜索引擎、机器翻译、语音合成、自动分类、自动摘要、自动校对等等,都需要用到分词。对于中文分词技术的研究,对于我国中文信息自动处理的发展有着至关重要的作用。
发明内容
本发明所要解决的技术问题在于,提供一种准确率高、速度快的基于词库的动态规划中文分词方法。
为解决上述技术问题,本发明提供一种基于词库的动态规划中文分词方法,包括如下步骤:(1)加载常用中文词库;(2)加载非常用中文词库;(3)读入中文文本,获得当前中文文本内容;(4)对于中文文本进行分句,将中文文本分成一个个短句;(5)进行动态规划中文自动分词;寻找第一个词的可能位置,记F[i]表示当前分到第i个字分到的最少词数;对于每个字开始转移,从当前字开始寻找转移,寻找他前一个词;当F[i]<F[j]+1,进行转移,从而存储当前最长的词为结果;(6)从最后一个词开始扫描,得到分词结果进行词性分析加入词性标注,输出结果;(7)将未登录词存入非常用中文词库;(8)判断文本是否结束;若否,转入步骤(4),进行循环处理。
常用中文词库与非常用词库建立双数组字典树;双数组字典树的数据结构由两个整数数组构成,一个是base[],为词语的地址,一个是check[],为字的hash值;设数组下标为i,如果base[i]、check[i]均为0,表示该位置为空,如果base[i]为负值,表示该状态为词语,check[i]表示该状态的前一状态。
构建双数组字典树,经过四次遍历,将所有的词语放入双数组中,然后遍历一遍词表,修改base值;用负的base值表示该位置为词语,如果状态i对应某一个词,而且base[i]=0,那么令base[i]=(-1)*i;如果base[i]的值不是0,那么另base[i]=(-1)*base[i]。
本发明的有益效果为:准确率高、效率快,分词精度可达到与人类类似的水平,分词速度可达到每秒2MB以上。
附图说明
图1是本发明的基于词库的动态规划中文分词方法的工作流程图。
图2是本发明的双数组字典树数据结构图例。
图3是本发明的双数组字典树中文词库图例。
具体实施方式
为解决上述技术问题,本发明提供一种基于词库的动态规划中文分词方法,包括如下步骤:(1)加载常用中文词库;(2)加载非常用中文词库;(3)读入中文文本;(4)对于中文文本进行分句,将中文文本分成一个个短句;(5)进行动态规划中文自动分词;(6)得到结果进行词性分析加入词性标注;(7)将未登录词存入非常用中文词库;(8)转入步骤(4),进行循环处理。
中文分词:将一个汉字序列切分成一个一个单独的词,分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。中文分词词典:由中文常用词语组成的词典,应该保证该词典占用内存较小且查询速度较快。未登录词:没有被收录在分词词表中但必须切分出来的词,包括各类专有名词(人名、地名、企业名等)、缩写词、新增词汇等。交集型歧义:因为词语交集形成的歧义,如“提高产品质量”,提高、高产、产品、品质、质量等。组合型歧义:同一个字串既可合又可分,如“个人恩怨”中的“个人”就是一个词,“这个人”中的“个人”就必须拆开;“这扇门的把手”中的“把手”就是一个词,“把手抬起来”中的“把手”就必须拆开。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410507974.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种自动添加拼板中镀金引线的方法
- 下一篇:还原炉余热回收利用的方法