[发明专利]一种结合历史数据的异构处理大数据检索的方法在审
申请号: | 201510016057.5 | 申请日: | 2015-01-13 |
公开(公告)号: | CN104778200A | 公开(公告)日: | 2015-07-15 |
发明(设计)人: | 薛凯军;周凡;韩冠亚;姜涛 | 申请(专利权)人: | 东莞中山大学研究院;中山大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 523000 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 结合 历史数据 处理 数据 检索 方法 | ||
技术领域
本发明涉及大数据技术领域,尤其涉一种结合历史数据的异构处理大数据检索的方法。
背景技术
作为云计算领域的一种新型数据管理模式——大数据,对数据管理的关键和瓶颈在于:随着存储规模的扩大,如何提高数据的加载效率和检索率。然而,由于大数据是随着云计算的超级计算能力而产生的,它具有以下三个特征:
规模大:即数据量大,超过了人们的想象,普通一个社交网络。如Facebook一天的数据量达到逾500TB新数据。
数据异构性:大数据中的数据类型有很大的差异。
价值密度低:在大数据中,以我们有利用价值的数据只是其中的极小的一部分。最典型的例子是视频监控。
如何有效、快速、准确地找到人们所需要的信息,使之成为重要资源,已是信息时代人们的重要需求,面对海量的信息资源,信息检索技术发挥着越来越重要的作用。然而,现有的数据库管理系统不同,数据存储系统的部署平台不同,使得数据资源在物理上和逻辑上都存在异构。众多的异构资源系统彼此之间的不兼容,资源对象和内容缺乏关联,信息资源的多样性和异构性,导致了信息资源获取不便,难以共享的信息和状态。
从1998年起,斯坦福大学的Paepeke就提出了异构数据的互操作问题。Paepeke认为,异构数据库检索技术是未来的信息检索主流的方向,目标是为了实现异构数据资源共享,对语义结构和体系结构不同的信息检索的主流方向,目标是实现异构数据的信息共享,从而对不同的语义结构和体系结构的信息建立起相互操作的连接。
因此,联合各个异构数据资源,实现不同数据资源之间的数据转换,消除异构,从中检索出指定的数据是亟待解决的重要问题。本文针对当前信息领域的数据异构的存储情况,广大用户群和用户急需实现的信息检索、信息共享和信息通信的要求,在考虑如何解决数据源异构性的问题上,结合分词技术,利用已有检索历史数据的方法,大大地提高大数据的查全率和查准率。在此,把此技术命名为结合历史数据的异构处理大数据检索方法。
中间件技术最早在1992年由Wiederhold提出,图1中所示原理结构示意图,之后许多的数据集成领域的专家对数据集成的中间件进行很深入的研究。典型的数据集成中间件使用XML数据模型构造出全局的数据模式,通过各个数据源和包装器的交互,在全局数据模式的基上,当用户向中间件发出查询请求时,中间件将用户的请求转换成各种数据源可以处理的子查询请求,从各个支流中取出数据后,在各自数据源中进行合并处理,最后生成用户全局查询的最终结果返回。在此模式中,可以一定程度上解决了结构化数据、半结构化数据和非结构化数据上的并存问题。
虽然可以处理半结构化和非结构化的数据,但在处理非结构化数据中,效率十分低下。在此类数据集成中间件数据的效率较低,在进行整合的过程中不排除有污染数据进入,并且,现有的数据集成中间件一般注重于全局查询的处理和优化,对数据的纯度和检索结果的查准率较低。在此模式中,对中间件的硬件要求和流量处理花销较大。
发明内容
本文提出的结合历史数据的异构处理大数据检索方法,是在保证数据检索的查全率和查准率的情况下,有效地解决了大数据中数据异构性的问题,并且极大地提高了检索的效率,是一种新型的大数据搜索方法。
为了解决上述问题,本发明提出了一种结合历史数据的异构处理大数据检索的方法,包括如下步骤:
接收用户输入的关键字句;
基于关键字句向Web服务器中的历史记录表中进行检索;
判断所述历史记录表中是否有本次搜索的关键字句,如果有则直接从Web服务器中取出结果;如果没有本次搜索的关键字句,则采用元搜索引擎到数据库服务器中进行分布式搜索;
将最终的搜索结果反馈给用户。
所述接收用户输入的关键字句之前还包括:
Web服务器基于历史用户检索请求,将相关用户检索的历史数据存储在本地空间。
所述接基于关键字句向Web服务器中的历史记录表中进行检索包括:
利用基于改进的整词二分词典的快速分词法,把用户检索时的请求语句划分成各个独立的词后,向Web服务器中的历史记录表中进行检索。
所述Web服务器中的历史记录表存储有<关键字,时间点>这两个关键的属性。
所述如果有则直接从Web服务器中取出结果包括:
历史检索中有本次搜索的关键字,则就直接从Web服务器中取出结果,再搜索历史记录表中时间点后的新数据,两个数据加起来,得到全部数据的搜索结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东莞中山大学研究院;中山大学,未经东莞中山大学研究院;中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510016057.5/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置