[发明专利]一种基于Lucene的动态n元分词方法有效
申请号: | 201710674957.8 | 申请日: | 2017-08-09 |
公开(公告)号: | CN107451122B | 公开(公告)日: | 2020-11-13 |
发明(设计)人: | 赵万亮;姜思远;王月铭 | 申请(专利权)人: | 南京华飞数据技术有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/289 |
代理公司: | 南京品智知识产权代理事务所(普通合伙) 32310 | 代理人: | 奚晓宁;陆群 |
地址: | 210019 江苏省南京市建邺*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 lucene 动态 分词 方法 | ||
本发明涉及互联网大数据领域,尤其涉及一种基于Lucene的动态n元分词方法。包括1)设置停用词;2)指定不同字符集;3)预处理;4)指定不同字符集的分词颗粒度n;5)分词。本发明通过一种基于Lucene的动态n元分词方法,可将拥有不同字符集的机器数据,动态设置n的值。当词表过于庞大时,可将n的值变大。由于本发明可以设置不同的字符集,例如中文字符集,字母字符集,数字字符集,韩文字符集,日文字符集等,那么可以兼容多种不同国家的语言的分词,解决了Lucene自带分词器和第三方中文分词器中语言不够兼容的缺陷。
技术领域
本发明涉及互联网大数据领域,尤其涉及一种基于Lucene的动态n元分词方法。
背景技术
现在大数据领域中增长最快,内容最复杂,也最具有价值的一类数据是机器数据,该数据已将占据大数据领域中的90%。目前的分词器对该类数据的处理存在较多问题,如分词后词表太长,查询时间长。
目前Lucene自带的分词器,例如Standard Analyzer标准分词器,根据空格和符号来完成分词;Whitespace Analyzer空格分词器,使用空格作为间隔符的词汇分割分词器;Simple Analyzer简单分词器,具备基本西方字符词汇的分词器等其他分词器,对英文来说是非常适合的,把单词切分成一个一个词根,但是对于中文来说只是简单把中文分成一个一个汉字,那么以上Lucene自带分词器的技术,相对于中文分词来说就显得相形见绌了,因为它无法满足中文,当然也包括一些其他国家的语言,如日文,韩文等分词需求。
现在也出现一些第三方中文分器,例如:IK Analyzer IK分词器以词典为基础的正反向全切分,以及正反向最大匹配切分的两种方法,是一个很好的中文分词器,但是由于其具有庞大的词典库,导致分词的速度变慢。再比如MMSeg4J分词器,使用Chih-Hao Tsai的MMSeg算法(基于正向最大匹配切分方法),对于内存的消耗较大,分词速度也不近人意。其他的第三方分词器,如Binary Analyzer 二元分词器,将词汇进行交叉双字分割,以实现分词效果,但是无法根据不同语言(不同字符集)动态改变分割词的个数,即无法动态改变n的值。
综上所述,Lucene自带的分词器无法兼顾中文的分词,而第三方的中文分词器,分词速度慢,也无法兼顾其他语言(韩文,日文等)的分词。
另一方面,对于机器数据(目前大数据领域中增长最快,内容最复杂,也最具有价值的一类数据)的分词效果也差强人意,分词后的词表非常庞大,导致查询速度慢。
可见,现有技术中对于词汇的分词受限于语言(多种字符集),分词速度,查询速度和数据类型(机器数据)。
发明内容
本发明的目的是针对上述不足之处提供一种基于Lucene的动态n元分词方法,采用基于Lucene的动态n元分词的方法,在多语言(多字符集),多种数据类型(机器数据)的情况下,可以实现多种语言多种数据类型词汇的动态n元分词,达到分词速度快,查询速度快,可动态修改n值,支持模糊查询,词表短的效果。
本发明是采取以下技术方案实现的:
一种基于Lucene的动态n元分词方法,包括以下步骤:
1)设置停用词,
所述停用词的含义为,不进行分词的词,读到该词直接跳过忽略,即不建立索引的词;
2)指定不同字符集,
所述不同字符集是需要进行分词的词,即要建立索引的词,也即用户将查询的词;该字符集根据用户需求来指定;
3)预处理,
将需要进行分词的文档内容,进行以下处理,即将所有的英文大写字母转换成小写字母进行存储,建立索引;将所有全角的字符转换为半角字符进行存储,建立索引;将所有的中文繁体字转化为中文简体进行存储,建立索引;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京华飞数据技术有限公司,未经南京华飞数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710674957.8/2.html,转载请声明来源钻瓜专利网。