[发明专利]海量日志数据的去重入库方法、装置、设备及存储介质有效

专利信息
申请号: 201711069370.0 申请日: 2017-11-03
公开(公告)号: CN107832406B 公开(公告)日: 2020-09-11
发明(设计)人: 谢永恒;邹焱;火一莽;万月亮 申请(专利权)人: 北京锐安科技有限公司
主分类号: G06F16/23 分类号: G06F16/23;G06F16/215;G06F16/22
代理公司: 北京品源专利代理有限公司 11332 代理人: 孟金喆
地址: 100044 北京市海淀区西小口*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 海量 日志 数据 入库 方法 装置 设备 存储 介质
【说明书】:

发明公开了一种海量日志数据的去重入库方法、装置、设备及存储介质。该方法包括:获取第一时间区间内的待入库海量日志数据;通过对所述待入库海量日志数据进行局部去重,获取待入库预去重结果;将所述待入库预去重结果和基准全量去重结果进行全局去重,获得与所述第一时间区间对应的全量去重结果,所述基准全量去重结果为前一次去重入库操作得到的全量去重结果;根据与所述第一时间区间对应的全量去重结果,对日志数据库进行更新处理。通过上述方法实现了对海量日志数据的去重入库处理,不仅避免了对单台计算机的磁盘容量需求过高的问题,还大大提高了海量日志数据去重、统计以及入库的效率。

技术领域

本发明实施例涉及数据处理技术领域,尤其涉及一种海量日志数据的去重入库方法、装置、设备及存储介质。

背景技术

在计算机中,日志文件是记录在操作系统或其他软件运行中发生的事件或在通信软件的不同用户之间的消息的文件。目前,人们的工作生活与计算机密不可分,日志数据的总量通过在万亿条以上级别,因此,在海量日志数据中提取有价值的信息进行去重入库存储,是十分必要的。

对于海量日志数据的去重入库通常采用两种方式:

第一种方式为使用Redis缓存数据库保存日志数据的主键信息。系统逐条读取海量日志数据,从数据中获取日志数据的主键信息,根据主键信息查询Redis缓存数据库,如果能够查询到数据,则重新计算该主键的统计信息,并将统计结果回写到Redis缓存数据库和Hbase数据库中,如果没有查询到数据,将主键和统计信息写入Redis缓存数据库,并将原始日志数据保存到hbase库中。

第二种方式为直接对Hbase数据库中保存的日志数据进行去重。系统逐条读取海量日志数据,从数据中取得获取日志数据的主键信息,根据主键生成RowKey(行主键),通过该RowKey可以直接从Hbase数据库中取得原始数据,如果能够获取到数据,则重新计算该数据的统计信息,生成新数据插入到Hbase数据库中覆盖原来的数据;如果没有获取到数据,则直接插入该数据。

但是,上述两种方式存在一定的局限性。第一种方式的缺点是随着日志数据量的增大,计算机将无法满足Redis缓存数据库的空间需求。第二种方式缺点是性能偏低,每条日志数据从Hbase数据库读取后经过处理再写回Hbase数据库中的耗时通常为毫秒级,但对于海量数据(总量在万亿条以上级别)来说,时间性能开销将是巨大的。

发明内容

本发明提供一种海量日志数据的去重入库方法、装置、设备及存储介质,以提高对海量日志数据去重处理的效率,同时避免出现由于日志数据量的增大而造成单台计算机磁盘容量不足又无法无限扩充的问题。

第一方面,本发明实施例提供了一种海量日志数据的去重入库方法,包括:

获取第一时间区间内的待入库海量日志数据;

通过对所述待入库海量日志数据进行局部去重,获取待入库预去重结果;

将所述待入库预去重结果和基准全量去重结果进行全局去重,获得与所述第一时间区间对应的全量去重结果,所述基准全量去重结果为前一次去重入库操作得到的全量去重结果;

根据与所述第一时间区间对应的全量去重结果,对日志数据库进行更新处理。

第二方面,本发明实施例还提供了一种海量日志数据的去重入库装置,包括:

待入库数据获取模块,用于获取第一时间区间内的待入库海量日志数据;

待入库预去重结果获取模块,用于通过对所述待入库海量日志数据进行局部去重,获取待入库预去重结果;

全量去重结果获取模块,用于将所述待入库预去重结果和基准全量去重结果进行全局去重,获得与所述第一时间区间对应的全量去重结果,所述基准全量去重结果为前一次去重入库操作得到的全量去重结果;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京锐安科技有限公司,未经北京锐安科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711069370.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top