[发明专利]基于大数据技术的大指数据比对方法有效
申请号: | 201710559045.6 | 申请日: | 2017-07-11 |
公开(公告)号: | CN107329846B | 公开(公告)日: | 2020-06-12 |
发明(设计)人: | 贾伟;洪启祥;高希;刘聪;蒋泽鑫;李革华;吴燕将;向刚;柳其明;许一君;许雷 | 申请(专利权)人: | 深圳市信义科技有限公司 |
主分类号: | G06F9/54 | 分类号: | G06F9/54 |
代理公司: | 深圳市嘉宏博知识产权代理事务所 44273 | 代理人: | 孙强 |
地址: | 518000 广东省深圳市南山区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 数据 技术 大指 方法 | ||
本发明涉及一种基于大数据技术的大指数据比对方法,其在运行的时候能够在比对JOB中分别生成索引以及比对索引,当有新的第一分布式消息队列或者新的第二分布式消息队列的时候,新的消息直接与索引以及比对索引进行比较输出结果,由于索引以及比对索引中所包含的信息量较少所以整体比对速度能够得到大幅度提升,本发明尤其适用在数据比对量大,消息队列经常更新且需要即时反馈出比对结果的领域。
技术领域
本发明涉及一种数据对比方法,特别是指一种基于大数据技术的大批量数据对比方法。
背景技术
随着计算机技术的发展各种数据比对方法现在已经很普遍的应用在了数据比较、数据统计等领域中了,然而传统的数据比对方法虽然比对逻辑比较简单但是比对、运行速度比较慢,比对效率不高,具体描述如下。
第一种比较典型的数据比对方法其具体步骤为,首先在比对数据中提取一条比对数据,而后将比对数据分别逐一的与被比数据进行比对并逐一反馈比对结果,但是当被比数据的数据量非常庞大的时候此种比对方法的运算速度以及运算效率是非常低的。
第二种比较典型的数据比对方法其具体步骤为,首先在比对数据中提取一条比对数据并传输到内存中,而后从被比对数据中逐一提取被比对数据到内存中,在内存中比对数据与被比对数据进行比对并反馈比对结果,此种方式通过加入内存能够提升比对速度,但是当数据量非常庞大的时候其也需要很长的运算时间。
在大数据时代来临的背景下上述传统的数据比对方法已经完全不能够满足人们大数据、快速比对的要求,而此是为传统技术的主要缺点。
发明内容
本发明提供一种基于大数据技术的大指数据比对方法,其适用在数据比对量大,消息队列经常更新且需要即时反馈出比对结果的领域,本发明的数据对比方法比对效率高,运算速度快能够快速即时反馈出比对结果,而此是为本发明的主要目的。
本发明所采用的技术方案为:基于大数据技术的大指数据比对方法,其包括如下步骤。
第一步、第一分布式消息队列传递给比对JOB,该第一分布式消息队列包括若干条消息,每一条该消息包括若干个字段信息,若干条该消息分别属于不同类型的消息,比如,第一条该消息为利用身份证在网吧上网的时间信息,第二条该消息为利用身份证在网吧上网的地点信息,第三条该消息为利用身份证在旅馆开房的时间信息,第二条该消息为利用身份证乘坐高铁的时间信息,等等。
第二步、在该比对JOB中按照分布式流式计算(SPARKSTREAMING)按时间顺序截取每一条该消息中的该字段信息,形成信息片段,该信息片段包括若干个该字段信息,在具体实施的时候,每五秒就截取每一条该消息中的该字段信息,形成该信息片段,或者根据需要每十秒就截取,每十五秒就截取等等。
第三步、在该比对JOB中配置比对信息,第二分布式消息队列传递给该比对JOB,该第二分布式消息队列包括若干条比对消息,每一条该比对消息包括若干个比对字段信息,若干条该比对消息分别属于不同类型的消息,比如,第一条该比对消息为逃犯逃跑时间,第二条该比对消息为逃犯逃跑地点,等等,第二步中的每一条该消息的该信息片段与一条该比对消息形成一个该比对信息,第二步中的每一条该消息的该信息片段与另外一条该比对消息形成另外一个该比对信息,如此类推。
第四步、在该比对JOB中对第三步中的该比对信息进行运算得到比对结果。
第五步、由该比对JOB提取每一条该消息的该信息片段中的关键字段形成索引。
在该比对JOB中按照分布式流式计算(SPARKSTREAMING)按时间顺序截取每一条该比对消息中的该比对字段信息,形成比对信息片段,该比对信息片段包括若干个该比对字段信息,由该比对JOB提取每一条该比对消息的该比对信息片段中的关键字段形成比对索引。上述第二步、第三步、第四步以及第五步同时进行。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市信义科技有限公司,未经深圳市信义科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710559045.6/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置