[发明专利]一种基于分布式内存计算的文本检索方法在审

申请号：	201711361106.4	申请日：	2017-12-18
公开（公告）号：	CN108009270A	公开（公告）日：	2018-05-08
发明（设计）人：	周红卫;李亚琼;刘延新;刘永波	申请（专利权）人：	江苏润和软件股份有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	暂无信息	代理人：	暂无信息
地址：	210041 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	发明涉及一种基于分布式内存计算的文本检索方法。全文检索文法和全文检索查询语言到检索模型的翻译转换；检索模型的并行化，包括数据的并行化、索引建立和查询计算的并行化、索引多作业间的共享、全局结果聚合；存储模型与检索优化，在建立索引阶段，两类存储模型即拥有高查询性能的全量存储模型和极低索引存储量的索引指定列存储模型；在查询阶段，基于索引指定列存储模型，能够将查询结果与原表数据进行连接、具有O(n)复杂度的分区对齐连接算法；基于两类存储模型提出了谓词下推以及列裁剪优化策略。
搜索关键词：	一种基于分布式内存计算文本检索方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.方法特征在于实现步骤如下：（1）查询语言到检索模型的翻译转换：首先将SQL语句进行语法分析，找出其中的关键词、表达式、映射、数据源等，生成语法树，接着对语法树进行规范校验，之后将语法树中的特定结构与数据库的数据字典进行绑定，如数据源节点等，接下来对计划树结构进行优化，并从多个执行计划中选择最优的计划，之后将执行计划转换为对数据处理的有向无环图DAG，DAG包含了数据的处理流程和处理逻辑，DAG交给执行引擎作为作业生成、调度和执行的依据，最终返回结果；（2）全文检索模型的并行化：全文检索模型描述了从数据源进行信息抽取，根据用户输入的查询语句返回符合条件的结果列表的一系列步骤，通常包括数据源读取、数据格式的规范化、分词和索引、索引写入文件、读取索引、查询、返回结果；（3）存储模型与检索优化：在建立索引阶段，提出两类存储模型即拥有高查询性能的全量索引存储模型和极低索引存储量的索引指定列存储模型；在查询阶段，基于索引指定列存储模型，提出了能够将查询结果与原表数据进行连接；基于两类存储模型提出了对索引数据进行查询时的列裁剪以及谓词下推策略，其中，谓词下推优化技术将过滤条件下推至索引的查询阶段，列裁剪应用于查询结果的数据裁剪阶段。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于江苏润和软件股份有限公司，未经江苏润和软件股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201711361106.4/，转载请声明来源钻瓜专利网。

上一篇：高温稳粘丙烯酸酯压敏胶黏剂及其制备方法
下一篇：纺机摆动支架

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于分布式内存计算的文本检索方法在审

专利文献下载