[发明专利]一种基于Lucene的动态n元分词方法有效

专利信息
申请号: 201710674957.8 申请日: 2017-08-09
公开(公告)号: CN107451122B 公开(公告)日: 2020-11-13
发明(设计)人: 赵万亮;姜思远;王月铭 申请(专利权)人: 南京华飞数据技术有限公司
主分类号: G06F40/284 分类号: G06F40/284;G06F40/289
代理公司: 南京品智知识产权代理事务所(普通合伙) 32310 代理人: 奚晓宁;陆群
地址: 210019 江苏省南京市建邺*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 lucene 动态 分词 方法
【说明书】:

发明涉及互联网大数据领域,尤其涉及一种基于Lucene的动态n元分词方法。包括1)设置停用词;2)指定不同字符集;3)预处理;4)指定不同字符集的分词颗粒度n;5)分词。本发明通过一种基于Lucene的动态n元分词方法,可将拥有不同字符集的机器数据,动态设置n的值。当词表过于庞大时,可将n的值变大。由于本发明可以设置不同的字符集,例如中文字符集,字母字符集,数字字符集,韩文字符集,日文字符集等,那么可以兼容多种不同国家的语言的分词,解决了Lucene自带分词器和第三方中文分词器中语言不够兼容的缺陷。

技术领域

本发明涉及互联网大数据领域,尤其涉及一种基于Lucene的动态n元分词方法。

背景技术

现在大数据领域中增长最快,内容最复杂,也最具有价值的一类数据是机器数据,该数据已将占据大数据领域中的90%。目前的分词器对该类数据的处理存在较多问题,如分词后词表太长,查询时间长。

目前Lucene自带的分词器,例如Standard Analyzer标准分词器,根据空格和符号来完成分词;Whitespace Analyzer空格分词器,使用空格作为间隔符的词汇分割分词器;Simple Analyzer简单分词器,具备基本西方字符词汇的分词器等其他分词器,对英文来说是非常适合的,把单词切分成一个一个词根,但是对于中文来说只是简单把中文分成一个一个汉字,那么以上Lucene自带分词器的技术,相对于中文分词来说就显得相形见绌了,因为它无法满足中文,当然也包括一些其他国家的语言,如日文,韩文等分词需求。

现在也出现一些第三方中文分器,例如:IK Analyzer IK分词器以词典为基础的正反向全切分,以及正反向最大匹配切分的两种方法,是一个很好的中文分词器,但是由于其具有庞大的词典库,导致分词的速度变慢。再比如MMSeg4J分词器,使用Chih-Hao Tsai的MMSeg算法(基于正向最大匹配切分方法),对于内存的消耗较大,分词速度也不近人意。其他的第三方分词器,如Binary Analyzer 二元分词器,将词汇进行交叉双字分割,以实现分词效果,但是无法根据不同语言(不同字符集)动态改变分割词的个数,即无法动态改变n的值。

综上所述,Lucene自带的分词器无法兼顾中文的分词,而第三方的中文分词器,分词速度慢,也无法兼顾其他语言(韩文,日文等)的分词。

另一方面,对于机器数据(目前大数据领域中增长最快,内容最复杂,也最具有价值的一类数据)的分词效果也差强人意,分词后的词表非常庞大,导致查询速度慢。

可见,现有技术中对于词汇的分词受限于语言(多种字符集),分词速度,查询速度和数据类型(机器数据)。

发明内容

本发明的目的是针对上述不足之处提供一种基于Lucene的动态n元分词方法,采用基于Lucene的动态n元分词的方法,在多语言(多字符集),多种数据类型(机器数据)的情况下,可以实现多种语言多种数据类型词汇的动态n元分词,达到分词速度快,查询速度快,可动态修改n值,支持模糊查询,词表短的效果。

本发明是采取以下技术方案实现的:

一种基于Lucene的动态n元分词方法,包括以下步骤:

1)设置停用词,

所述停用词的含义为,不进行分词的词,读到该词直接跳过忽略,即不建立索引的词;

2)指定不同字符集,

所述不同字符集是需要进行分词的词,即要建立索引的词,也即用户将查询的词;该字符集根据用户需求来指定;

3)预处理,

将需要进行分词的文档内容,进行以下处理,即将所有的英文大写字母转换成小写字母进行存储,建立索引;将所有全角的字符转换为半角字符进行存储,建立索引;将所有的中文繁体字转化为中文简体进行存储,建立索引;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京华飞数据技术有限公司,未经南京华飞数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710674957.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top