[发明专利]一种基于在线聚集的快速文本查询方法有效

专利信息
申请号: 201710647283.2 申请日: 2017-08-01
公开(公告)号: CN107480220B 公开(公告)日: 2021-01-12
发明(设计)人: 伍赛;庞志飞;陈珂;陈刚;寿黎但;胡天磊 申请(专利权)人: 浙江大学
主分类号: G06F16/332 分类号: G06F16/332;G06F16/338
代理公司: 杭州求是专利事务所有限公司 33200 代理人: 林超
地址: 310058 浙江*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 在线 聚集 快速 文本 查询 方法
【说明书】:

发明公开了一种基于在线聚集的快速文本查询方法。首先以规定的数据模式读取文本文件;其次,以在线聚集的方式进行输入查询,所有查询以树的方式进行组织;最后,根据不同的聚合函数,计算相应的查询置信度或置信区间,当置信度或置信区间满足预设的临界值时,查询过程停止。本发明能在超大文本数据上直接进行查询,并且快速地获得近似结果,实现了在超大文本数据上快速的查询响应。

技术领域

本发明涉及数据库领域的在线聚集查询技术、索引技术以及人机交互领域的查询可视化方法,尤其是涉及了一种基于在线聚集的快速文本查询方法。

背景技术

由于近年来信息的爆炸式增长,数据分析人员为了需要使用目前业界最新的技术对这些数据进行深入分析,攫取价值。在开始分析工作之前,数据分析人员需要对数据进行一些预处理的操作,例如进行一些特定查询来检验这些数据是否有深入分析的必要。然而,通过传统的数据库系统完成这样的操作可能是非常耗时的,因为将超大数据集导入数据库并且建立索引这一项工作非常复杂,通常需要较长的时间。在实际应用中,用户通常不需要得到精确结果,只希望得到数据的大致“轮廓”,所以在线聚集技术得到了广泛应用。

数据库cracking技术是一种对在数据库系统中数据重新组织排列的一种技术。数据库引擎针对查询中的谓词逻辑重新组织当前数据。当相似查询再次请求的时候,数据库引擎可以快速定位到符合要求的数据区间,进而加速查询速度。例如当前查询以某一个属性进行分组查询,系统将会将数据以该属性分组重新组织。当心的请求对某一组查询时,系统将会迅速定位到相应的组,对数据进行顺序处理,从而快速返回结果。数据库引擎对数据的组织的算法是对缓存友好的,也就是在重新排列的过程中,不会发生缓存没有命中的情况,从而大大加快了数据重新排列的过程。

基于文本的SQL查询技术是指用户直接在文本数据上进行SQL查询,而不需要将数据导入到传统数据库系统的技术。通常来说,对文本进行SQL查询包括两个阶段,模式定义和格式转换。模式定义是指用户或者系统自动推导出文本数据的格式,例如列名和数据类型。格式转换是指系统将文本数据动态转换成内存中相应的数据结构,继而进行查询和计算。对于规模小的数据库系统,该技术可以让用户迅速开展查询,而不需要繁琐的数据库导入操作。但是对于大规模的数据库系统,会出现导入时间过长,响应过慢的问题。

发明内容

针对现有技术的不足,本发明的目的在于提供了一种基于在线聚集的快速文本查询方法。

如图1所示,本发明解决其技术问题采用的技术方案如下:

本发明对文本数据进行随机采样,再通过在线聚集技术进行查询,返回用户可接受的近似查询结果。

文中所述的查询系统是指本发明方法所构建形成的系统。

所述方法步骤具体如下:

1)首先从数据库中的文本文件整理成规定的数据模式;

2)以在线聚集的方式进行输入查询,所有查询以树的方式进行组织;

3)用不同的聚合函数计算其查询置信度或置信区间,当置信度或置信区间满足预设的临界值时,查询过程停止。

所述步骤3)具体是:查询系统根据用户查询中的聚合函数,例如avg、count和var等函数,根据中央极限定理或者霍夫丁不等式,计算本次查询的置信度或置信区间。

所述步骤1)的数据模式是由文本文件中各条记录的各个列构成,不同的列分别代表了不同记录的属性,每条记录的每个列主要有列名称和数据类型的两个部分组成。

记录的属性表示每一列的具体含义,例如对于一份关于学生成绩的CSV(以逗号分隔的文本文件),第一列可能表示学生姓名,第二列可能表示成绩等。

数据类型分为文本类型、数字类型和时间类型。例如,对于学生成绩文件,姓名为文本类型,成绩则为数字类型。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710647283.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top