[发明专利]一种结合历史数据的异构处理大数据检索的方法在审

申请号：	201510016057.5	申请日：	2015-01-13
公开（公告）号：	CN104778200A	公开（公告）日：	2015-07-15
发明（设计）人：	薛凯军;周凡;韩冠亚;姜涛	申请（专利权）人：	东莞中山大学研究院;中山大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	暂无信息	代理人：	暂无信息
地址：	523000 广东省***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种结合历史数据处理数据检索方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及大数据技术领域，尤其涉一种结合历史数据的异构处理大数据检索的方法。

背景技术

作为云计算领域的一种新型数据管理模式——大数据，对数据管理的关键和瓶颈在于：随着存储规模的扩大，如何提高数据的加载效率和检索率。然而，由于大数据是随着云计算的超级计算能力而产生的，它具有以下三个特征：

规模大：即数据量大，超过了人们的想象，普通一个社交网络。如Facebook一天的数据量达到逾500TB新数据。

数据异构性：大数据中的数据类型有很大的差异。

价值密度低：在大数据中，以我们有利用价值的数据只是其中的极小的一部分。最典型的例子是视频监控。

如何有效、快速、准确地找到人们所需要的信息，使之成为重要资源，已是信息时代人们的重要需求，面对海量的信息资源，信息检索技术发挥着越来越重要的作用。然而，现有的数据库管理系统不同，数据存储系统的部署平台不同，使得数据资源在物理上和逻辑上都存在异构。众多的异构资源系统彼此之间的不兼容，资源对象和内容缺乏关联，信息资源的多样性和异构性，导致了信息资源获取不便，难以共享的信息和状态。

从1998年起，斯坦福大学的Paepeke就提出了异构数据的互操作问题。Paepeke认为，异构数据库检索技术是未来的信息检索主流的方向，目标是为了实现异构数据资源共享，对语义结构和体系结构不同的信息检索的主流方向，目标是实现异构数据的信息共享，从而对不同的语义结构和体系结构的信息建立起相互操作的连接。

因此，联合各个异构数据资源，实现不同数据资源之间的数据转换，消除异构，从中检索出指定的数据是亟待解决的重要问题。本文针对当前信息领域的数据异构的存储情况，广大用户群和用户急需实现的信息检索、信息共享和信息通信的要求，在考虑如何解决数据源异构性的问题上，结合分词技术，利用已有检索历史数据的方法，大大地提高大数据的查全率和查准率。在此，把此技术命名为结合历史数据的异构处理大数据检索方法。

中间件技术最早在1992年由Wiederhold提出，图1中所示原理结构示意图，之后许多的数据集成领域的专家对数据集成的中间件进行很深入的研究。典型的数据集成中间件使用XML数据模型构造出全局的数据模式，通过各个数据源和包装器的交互，在全局数据模式的基上，当用户向中间件发出查询请求时，中间件将用户的请求转换成各种数据源可以处理的子查询请求，从各个支流中取出数据后，在各自数据源中进行合并处理，最后生成用户全局查询的最终结果返回。在此模式中，可以一定程度上解决了结构化数据、半结构化数据和非结构化数据上的并存问题。

虽然可以处理半结构化和非结构化的数据，但在处理非结构化数据中，效率十分低下。在此类数据集成中间件数据的效率较低，在进行整合的过程中不排除有污染数据进入，并且，现有的数据集成中间件一般注重于全局查询的处理和优化，对数据的纯度和检索结果的查准率较低。在此模式中，对中间件的硬件要求和流量处理花销较大。

发明内容

本文提出的结合历史数据的异构处理大数据检索方法，是在保证数据检索的查全率和查准率的情况下，有效地解决了大数据中数据异构性的问题，并且极大地提高了检索的效率，是一种新型的大数据搜索方法。

为了解决上述问题，本发明提出了一种结合历史数据的异构处理大数据检索的方法，包括如下步骤：

接收用户输入的关键字句；

基于关键字句向Web服务器中的历史记录表中进行检索；

判断所述历史记录表中是否有本次搜索的关键字句，如果有则直接从Web服务器中取出结果；如果没有本次搜索的关键字句，则采用元搜索引擎到数据库服务器中进行分布式搜索；

将最终的搜索结果反馈给用户。

所述接收用户输入的关键字句之前还包括：

Web服务器基于历史用户检索请求，将相关用户检索的历史数据存储在本地空间。

所述接基于关键字句向Web服务器中的历史记录表中进行检索包括：

利用基于改进的整词二分词典的快速分词法，把用户检索时的请求语句划分成各个独立的词后，向Web服务器中的历史记录表中进行检索。