[发明专利]一种基于词库的动态规划中文分词方法在审

申请号：	201410507974.9	申请日：	2014-09-29
公开（公告）号：	CN104252542A	公开（公告）日：	2014-12-31
发明（设计）人：	孙珂;田冰川;张道强	申请（专利权）人：	南京航空航天大学
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27
代理公司：	南京钟山专利代理有限公司 32252	代理人：	戴朝荣
地址：	210000 江苏省***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于词库动态规划中文分词方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于词库的动态规划中文分词方法，其特征在于，包括如下步骤：（1）加载常用中文词库；（2）加载非常用中文词库；（3）读入中文文本，获得当前中文文本内容；（4）对于中文文本进行分句，将中文文本分成一个个短句；（5）进行动态规划中文自动分词；寻找第一个词的可能位置，记F[i]表示当前分到第i个字分到的最少词数；对于每个字开始转移，从当前字开始寻找转移，寻找他前一个词；当F[i]<F[j]+1，进行转移，从而存储当前最长的词为结果；（6）从最后一个词开始扫描，得到分词结果进行词性分析加入词性标注，输出结果；（7）将未登录词存入非常用中文词库；（8）判断文本是否结束；若否，转入步骤（4），进行循环处理。

2.如权利要求1所述的中文分词方法，其特征在于，常用中文词库与非常用词库建立双数组字典树；双数组字典树的数据结构由两个整数数组构成，一个是base[]，为词语的地址，一个是check[]，为字的hash值；设数组下标为i，如果base[i]、check[i]均为0，表示该位置为空，如果base[i]为负值，表示该状态为词语，check[i]表示该状态的前一状态。

3.如权利要求2所述的中文分词方法，其特征在于，构建双数组字典树，经过四次遍历，将所有的词语放入双数组中，然后遍历一遍词表，修改base值；用负的base值表示该位置为词语，如果状态i对应某一个词，而且base[i]=0，那么令base[i]=（-1）*i；如果base[i]的值不是0，那么另base[i]=（-1）*base[i]。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京航空航天大学，未经南京航空航天大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201410507974.9/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于词库的动态规划中文分词方法在审

专利文献下载