[发明专利]一种基于Lucene的动态n元分词方法有效
申请号: | 201710674957.8 | 申请日: | 2017-08-09 |
公开(公告)号: | CN107451122B | 公开(公告)日: | 2020-11-13 |
发明(设计)人: | 赵万亮;姜思远;王月铭 | 申请(专利权)人: | 南京华飞数据技术有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/289 |
代理公司: | 南京品智知识产权代理事务所(普通合伙) 32310 | 代理人: | 奚晓宁;陆群 |
地址: | 210019 江苏省南京市建邺*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 lucene 动态 分词 方法 | ||
1.一种基于Lucene的动态n元分词方法,其特征在于,包括以下步骤:
1)设置停用词,
所述停用词的含义为,不进行分词的词,读到该词直接跳过忽略,即不建立索引的词;
2)指定不同字符集,
所述不同字符集是需要进行分词的词,即要建立索引的词,也即用户将查询的词;该字符集根据用户需求来指定;
3)预处理,
将需要进行分词的文档内容,进行以下处理,即将所有的英文大写字母转换成小写字母进行存储,建立索引;将所有全角的字符转换为半角字符进行存储,建立索引;将所有的中文繁体字转化为中文简体进行存储,建立索引;
4)指定不同字符集的分词颗粒度n,
对步骤2)中指定的字符集指定不同的分词方式,即设置分词的颗粒度n;特殊字符集不进行分词,直接建立索引;
5)分词,
5-1)逐字读取文件内容,判断读取内容是否为空;如果读取内容为空就直接结束本步骤;不为空,进入下一步;
5-2)判断是否是停用词,如果是停用词,直接跳过,从该停用词后面的内容开始,进入步骤5-1)读取文件内容;如果不是停用词,进入下一步;
5-3)判断步骤5-2)中读取字符的字符类型,根据字符类型和步骤4)中预设的颗粒度进行循环读取词汇,直到下一个字符的字符类型不为步骤5-2)中读取字符的字符类型或者是停用词;
5-4)将步骤5-3)中读取到的字符串根据相应的颗粒度进行分词,建立索引;
5-5)回到步骤5-1),直到读取字符为空,即文件内容读完,结束分词;
步骤1)中所述的停用词包括常见标点符号、空格或换行符;当需要对标点符号进行分词,建立索引时,停用词不能为标点符号;停用词能够根据需求设定;
步骤2)所述的字符集包括中文字符集、日文字符集、英文字符集和数字字符集,没有被指定的字符和特殊的图形符号作为特殊字符集。
2.根据权利要求1所述的基于Lucene的动态n元分词方法,其特征在于,没指定的字符包括印度语的字符集。
3.根据权利要求1所述的基于Lucene的动态n元分词方法,其特征在于,步骤2)中指定的字符集的数量不受限制。
4.根据权利要求1所述的基于Lucene的动态n元分词方法,其特征在于,步骤4)中每种字符集的分词颗粒度n根据字符集的特性进行设置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京华飞数据技术有限公司,未经南京华飞数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710674957.8/1.html,转载请声明来源钻瓜专利网。