[发明专利]一种基于词库的动态规划中文分词方法在审
申请号: | 201410507974.9 | 申请日: | 2014-09-29 |
公开(公告)号: | CN104252542A | 公开(公告)日: | 2014-12-31 |
发明(设计)人: | 孙珂;田冰川;张道强 | 申请(专利权)人: | 南京航空航天大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 南京钟山专利代理有限公司 32252 | 代理人: | 戴朝荣 |
地址: | 210000 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于词库的动态规划中文分词方法,其特征在于,包括如下步骤:(1)加载常用中文词库;(2)加载非常用中文词库;(3)读入中文文本,获得当前中文文本内容;(4)对于中文文本进行分句,将中文文本分成一个个短句;(5)进行动态规划中文自动分词;(6)从最后一个词开始扫描,得到分词结果进行词性分析加入词性标注,输出结果;(7)将未登录词存入非常用中文词库;(8)判断文本是否结束;若否,转入步骤(4),进行循环处理。本发明的有益效果为:准确率高、效率快,分词精度可达到与人类类似的水平,分词速度可达到每秒2MB以上。 | ||
搜索关键词: | 一种 基于 词库 动态 规划 中文 分词 方法 | ||
【主权项】:
一种基于词库的动态规划中文分词方法,其特征在于,包括如下步骤:(1)加载常用中文词库;(2)加载非常用中文词库;(3)读入中文文本,获得当前中文文本内容;(4)对于中文文本进行分句,将中文文本分成一个个短句;(5)进行动态规划中文自动分词;寻找第一个词的可能位置,记F[i]表示当前分到第i个字分到的最少词数;对于每个字开始转移,从当前字开始寻找转移,寻找他前一个词;当F[i]<F[j]+1,进行转移,从而存储当前最长的词为结果;(6)从最后一个词开始扫描,得到分词结果进行词性分析加入词性标注,输出结果;(7)将未登录词存入非常用中文词库;(8)判断文本是否结束;若否,转入步骤(4),进行循环处理。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410507974.9/,转载请声明来源钻瓜专利网。
- 上一篇:一种自动添加拼板中镀金引线的方法
- 下一篇:还原炉余热回收利用的方法