[发明专利]一种基于分布式内存计算的文本检索方法在审
申请号: | 201711361106.4 | 申请日: | 2017-12-18 |
公开(公告)号: | CN108009270A | 公开(公告)日: | 2018-05-08 |
发明(设计)人: | 周红卫;李亚琼;刘延新;刘永波 | 申请(专利权)人: | 江苏润和软件股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 210041 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 分布式 内存 计算 文本 检索 方法 | ||
发明涉及一种基于分布式内存计算的文本检索方法。全文检索文法和全文检索查询语言到检索模型的翻译转换;检索模型的并行化,包括数据的并行化、索引建立和查询计算的并行化、索引多作业间的共享、全局结果聚合;存储模型与检索优化,在建立索引阶段,两类存储模型即拥有高查询性能的全量存储模型和极低索引存储量的索引指定列存储模型;在查询阶段,基于索引指定列存储模型,能够将查询结果与原表数据进行连接、具有O(n)复杂度的分区对齐连接算法;基于两类存储模型提出了谓词下推以及列裁剪优化策略。
技术领域
本发明涉及一种基于分布式内存计算的文本检索方法,属于软件技术领域。
背景技术
全文检索有效弥补了数据库查询效率低以及检索方式单一的不足,在关系型数据库中,全文检索是衡量数据库易用性和功能完备性的重要指标。当前,全文检索功能作为组件集成在很多传统关系型数据库中。在数据量较少的情况下,数据库能够在较短时间内完成全文检索操作,然而,在大数据情况下,全文检索与关系型数据库管理系统集成的性能以及可扩展性难以满足对快速增长的数据进行检索的业务需求。除了对于传统全文检索的需求,为了更好地发掘海量文本数据中的潜在价值,面向文本的应用需要功能丰富、满足交互式分析需求的海量数据处理系统,但是目前并没有能将两者有效结合的解决方案。
Spark SQL提供了以SQL形式对海量数据进行处理和分析的能力,提供了与RDBMS相似的SQL文法以及关系型查询操作,方便业务人员快速进行大数据分析,是传统RDBMS在海量数据下进行分析的替代系统,能够有效满足用户对于海量数据关系型查询和交互式分析的需求。但是目前Spark SQL并不支持全文检索,主要存在以下三个问题:
(1) 不支持全文检索SQL语句,并且翻译器缺乏将全文检索文法转换为物理计划的机制。SQL语句是数据分析的接口,在Spark SQL中,SQL语句经过翻译器转换为计划树,计划树经过优化器以及物理计划生成器转换为物理计划树,物理计划树包含了一系列RDD以及相互之间的关联操作,进而提交给Spark Core进行作业规划、调度、执行。Spark SQL目前仅支持简单的查找如LIKE、BETWEEN等关键字,检索形式单一,检索结果对于关键词匹配程度的评价简单,缺乏每行数据在全局范围内与关键词匹配程度计算方法以及进行更复杂查找的功能,无法满足用户的数据检索需求。
(2) 缺乏全文检索的并行化方法。全文检索包括建立索引和基于索引进行查询两个过程。Spark SQL缺乏将这两个过程应用于分布式计算引擎上的方法,用户只能依赖外部系统如Solr或ElasticSearch才能提供的分布式全文检索功能。现有分布式全文检索引擎如Solr和ElasticSearch虽然提供了Hive和Spark的连接器,但不支持全文检索SQL文法,这样的外部系统无法很好地利用Spark引擎和数据特性,而且,实现全文检索功能需要复杂的数据转换,无法满足边查询边分析计算的需求,部署的复杂性和学习成本使其难以使用。
(3) 缺乏底层索引文件的支持以及检索的优化方案。Spark目前并不支持索引,索引的缺乏使得查询时需要扫描全表数据,导致查询速度缓慢。检索优化方案通常包括索引存储模型、检索并行度与缓存等优化技术。Spark目前并未有此类方案。虽然Solr和ElasticSearch提供了索引支持和检索优化方案,但是由于底层数据存储和执行引擎的不同,二者无法根据Spark本身特性对存储模型和查询方案进一步优化。
上述问题导致用户无法利用SQL语句进行全文检索的操作,在如数据查找和分析等相关应用上,全文检索功能的缺失使得Spark SQL难以满足某些特定业务的需求。
发明内容
本发明的目的:在解释器、分析器以及物理计划生成器中增加了对于全文检索文法的识别和转换规则,并与索引数据源进行了对接,提供了完整的翻译转换以及完整的检索模型并行化方案。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏润和软件股份有限公司,未经江苏润和软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711361106.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:高温稳粘丙烯酸酯压敏胶黏剂及其制备方法
- 下一篇:纺机摆动支架