[发明专利]一种基于词库的动态规划中文分词方法在审
申请号: | 201410507974.9 | 申请日: | 2014-09-29 |
公开(公告)号: | CN104252542A | 公开(公告)日: | 2014-12-31 |
发明(设计)人: | 孙珂;田冰川;张道强 | 申请(专利权)人: | 南京航空航天大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 南京钟山专利代理有限公司 32252 | 代理人: | 戴朝荣 |
地址: | 210000 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 词库 动态 规划 中文 分词 方法 | ||
1.一种基于词库的动态规划中文分词方法,其特征在于,包括如下步骤:(1)加载常用中文词库;(2)加载非常用中文词库;(3)读入中文文本,获得当前中文文本内容;(4)对于中文文本进行分句,将中文文本分成一个个短句;(5)进行动态规划中文自动分词;寻找第一个词的可能位置,记F[i]表示当前分到第i个字分到的最少词数;对于每个字开始转移,从当前字开始寻找转移,寻找他前一个词;当F[i]<F[j]+1,进行转移,从而存储当前最长的词为结果;(6)从最后一个词开始扫描,得到分词结果进行词性分析加入词性标注,输出结果;(7)将未登录词存入非常用中文词库;(8)判断文本是否结束;若否,转入步骤(4),进行循环处理。
2.如权利要求1所述的中文分词方法,其特征在于,常用中文词库与非常用词库建立双数组字典树;双数组字典树的数据结构由两个整数数组构成,一个是base[],为词语的地址,一个是check[],为字的hash值;设数组下标为i,如果base[i]、check[i]均为0,表示该位置为空,如果base[i]为负值,表示该状态为词语,check[i]表示该状态的前一状态。
3.如权利要求2所述的中文分词方法,其特征在于,构建双数组字典树,经过四次遍历,将所有的词语放入双数组中,然后遍历一遍词表,修改base值;用负的base值表示该位置为词语,如果状态i对应某一个词,而且base[i]=0,那么令base[i]=(-1)*i;如果base[i]的值不是0,那么另base[i]=(-1)*base[i]。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410507974.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种自动添加拼板中镀金引线的方法
- 下一篇:还原炉余热回收利用的方法