[发明专利]一种中文分词和大数据信息检索方法及装置在审
申请号: | 201811505375.8 | 申请日: | 2018-12-10 |
公开(公告)号: | CN109800412A | 公开(公告)日: | 2019-05-24 |
发明(设计)人: | 王庆;赵启正;岳峻;贾世祥;李雪艳;战超 | 申请(专利权)人: | 鲁东大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/33 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王莹;吴欢燕 |
地址: | 264025 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 中文分词 大数据 信息检索 中文字串 文档 中文 最大匹配算法 高效信息 双数组 分词 算法 匹配 检索 | ||
本发明实施例提供一种中文分词和大数据信息检索方法及装置,该中文分词方法包括:获取中文文档;基于双数组Trie树算法对所述中文文档进行切分,得到中文字串;基于双向最大匹配算法对所述中文字串进行匹配,得到切分后的中文分词。本发明实施例提供的一种中文分词和大数据信息检索方法及装置,能够高效的对中文进行分词,进而在此基础上实现大数据下的高效信息检索。
技术领域
本发明涉及信息检索领域,尤其涉及一种中文分词和大数据信息检索方法及装置。
背景技术
从海量数据中实现高效的检索是目前很多行业的迫切需求,现有的大数据信息检索方法主要有NoSQL技术和全文检索技术。全文检索技术的出现,领导了信息检索领域的一场革命。相对于传统的索引检索,全文检索技术提供了一个更新、更强大的搜索功能。而利用Lucene技术可以为任意一个应用系统添加一个专属于其自身的捜索引擎,该搜索引擎不仅可以搜索到网页信息,还能搜索到系统内部的数据文档信息和数据库中的数据信息。
高效检索的前提是进行准确的分词,在自然语言处理技术中,中文处理技术比西文处理技术要落后很大一段距离,许多西文的处理方法中文不能直接采用,就是因为中文必需有分词这道工序。中文分词是其他中文信息处理的基础,中文分词的准确与否,常常直接影响到对搜索结果的相关度排序,而现有的Lucene技术对西方语言的分词效果远远优于对中文的分词效果。因此现在急需一种中文分词方法以及基于中文分词方法的信息检索方法及系统。
发明内容
本发明实施例为克服上述技术缺陷,提供一种中文分词和大数据信息检索方法及装置。
第一方面,本发明实施例提供一种中文分词方法,包括:
获取中文文档;
基于双数组Trie树算法对所述中文文档进行切分,得到中文字串;
基于双向最大匹配算法对所述中文字串进行匹配,得到切分后的中文分词。
第二方面,本发明实施例提供一种基于上述中文分词方法的大数据信息检索方法,包括:
接收查询请求,根据所述查询请求获取预处理后的信息检索文档;
对所述信息检索文档的西文文档分词得到西文分词,根据第一方面所述中文分词方法对所述信息检索文档的中文文档进行分词,得到中文分词;
将所述西文分词和所述中文分词构造成查询语法树,根据所述查询语法树和查询类型,进行信息检索。
第三方面,本发明实施例提供一种中文分词装置,包括:
获取单元,用于获取中文文档;
切分单元,用于基于双数组Trie树算法对所述中文文档进行切分,得到中文字串;
分词单元,用于基于双向最大匹配算法对所述中文字串进行匹配,得到切分后的中文分词。
第四方面,本发明实施例提供一种基于上述中文分词方法的大数据信息检索装置,包括:
接收模块,用于接收查询请求,根据所述查询请求获取预处理后的信息检索文档;
分词模块,用于对所述信息检索文档的西文文档分词得到西文分词,根据第一方面所述中文分词方法对所述信息检索文档的中文文档进行分词,得到中文分词;
检索模块,用于将所述西文分词和所述中文分词构造成查询语法树,根据所述查询语法树和查询类型,进行信息检索。
第五方面,本发明实施例提供一种电子设备,包括存储器和处理器,所述处理器和所述存储器通过总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如第一方面或第二方面所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于鲁东大学,未经鲁东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811505375.8/2.html,转载请声明来源钻瓜专利网。