[发明专利]一种中文分词和大数据信息检索方法及装置在审

申请号：	201811505375.8	申请日：	2018-12-10
公开（公告）号：	CN109800412A	公开（公告）日：	2019-05-24
发明（设计）人：	王庆;赵启正;岳峻;贾世祥;李雪艳;战超	申请（专利权）人：	鲁东大学
主分类号：	G06F17/27	分类号：	G06F17/27;G06F16/33
代理公司：	北京路浩知识产权代理有限公司 11002	代理人：	王莹;吴欢燕
地址：	264025 山东***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	中文分词大数据信息检索中文字串文档中文最大匹配算法高效信息双数组分词算法匹配检索
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例提供一种中文分词和大数据信息检索方法及装置，该中文分词方法包括：获取中文文档；基于双数组Trie树算法对所述中文文档进行切分，得到中文字串；基于双向最大匹配算法对所述中文字串进行匹配，得到切分后的中文分词。本发明实施例提供的一种中文分词和大数据信息检索方法及装置，能够高效的对中文进行分词，进而在此基础上实现大数据下的高效信息检索。

技术领域

本发明涉及信息检索领域，尤其涉及一种中文分词和大数据信息检索方法及装置。

背景技术

从海量数据中实现高效的检索是目前很多行业的迫切需求，现有的大数据信息检索方法主要有NoSQL技术和全文检索技术。全文检索技术的出现，领导了信息检索领域的一场革命。相对于传统的索引检索，全文检索技术提供了一个更新、更强大的搜索功能。而利用Lucene技术可以为任意一个应用系统添加一个专属于其自身的捜索引擎，该搜索引擎不仅可以搜索到网页信息，还能搜索到系统内部的数据文档信息和数据库中的数据信息。

高效检索的前提是进行准确的分词，在自然语言处理技术中，中文处理技术比西文处理技术要落后很大一段距离，许多西文的处理方法中文不能直接采用，就是因为中文必需有分词这道工序。中文分词是其他中文信息处理的基础，中文分词的准确与否，常常直接影响到对搜索结果的相关度排序，而现有的Lucene技术对西方语言的分词效果远远优于对中文的分词效果。因此现在急需一种中文分词方法以及基于中文分词方法的信息检索方法及系统。

发明内容

本发明实施例为克服上述技术缺陷，提供一种中文分词和大数据信息检索方法及装置。

第一方面，本发明实施例提供一种中文分词方法，包括：

获取中文文档；

基于双数组Trie树算法对所述中文文档进行切分，得到中文字串；

基于双向最大匹配算法对所述中文字串进行匹配，得到切分后的中文分词。

第二方面，本发明实施例提供一种基于上述中文分词方法的大数据信息检索方法，包括：

接收查询请求，根据所述查询请求获取预处理后的信息检索文档；

对所述信息检索文档的西文文档分词得到西文分词，根据第一方面所述中文分词方法对所述信息检索文档的中文文档进行分词，得到中文分词；

将所述西文分词和所述中文分词构造成查询语法树，根据所述查询语法树和查询类型，进行信息检索。

第三方面，本发明实施例提供一种中文分词装置，包括：

获取单元，用于获取中文文档；