[发明专利]一种数据获取方法及装置在审
申请号: | 201910731693.4 | 申请日: | 2019-08-08 |
公开(公告)号: | CN110324211A | 公开(公告)日: | 2019-10-11 |
发明(设计)人: | 李善任;董会存 | 申请(专利权)人: | 宜人恒业科技发展(北京)有限公司;普信恒业科技发展(北京)有限公司 |
主分类号: | H04L12/26 | 分类号: | H04L12/26;H04L12/861 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 柳欣 |
地址: | 100022 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 原始数据 日志信息 统计结果 数据获取 统计周期 消息队列 时间段 采集 统计 实时采集 实时统计 周期统计 实时性 写入 截止 | ||
本发明公开了一种数据获取方法及装置,该方法包括:实时采集日志信息;以统计规则为依据,基于采集到的日志信息,获得统计相关的原始数据,将获得的原始数据写入第一消息队列;从第一消息队列中,收集与当前统计周期对应的原始数据;在收集到原始数据时,根据收集到的当前原始数据、第一时间段的统计结果和统计规则,得到第二时间段的统计结果。本发明能够在采集到日志信息的瞬间,实时统计出当前统计周期内截止到当前时刻的统计结果,实现了实时性的周期统计。
技术领域
本申请涉及数据处理技术领域,尤其涉及一种数据获取方法及装置。
背景技术
在工作生活中,常常需要对一定周期内的数据进行统计(以下称为周期统计),即统计一定时间周期内的数据值,比如在利用爬虫爬取数据时,需要统计一段时间内的抓取成功率。
但是,在现有技术中,一般需要在一个统计周期结束后,才能基于该周期内的数据实现周期统计。例如在统计抓取成功率时,在一个统计周期结束后,根据该统计周期内的抓取成功总数与抓取总数得到该周期内的抓取成功率,周期统计的实时性较差,存在一定的延时,数据获取的效果不佳。
发明内容
有鉴于此,本申请实施例提供了一种数据获取方法及装置,能够解决现有技术中周期统计实时性差的问题。
本申请实施例第一方面提供了一种数据获取方法,包括:
实时采集日志信息;
以统计规则为依据,基于采集到的日志信息,获得统计相关的原始数据,将获得的原始数据写入第一消息队列;
从所述第一消息队列中,收集与当前统计周期对应的原始数据;
在收集到与当前统计周期对应的原始数据时,根据收集到的当前原始数据、第一时间段的统计结果和所述统计规则,得到第二时间段的统计结果;
其中,所述第一时间段包括当前统计周期的开始时刻至前一次收集到的原始数据对应的时刻,所述第二时间段包括所述当前统计周期的开始时刻至所述当前原始数据对应的时刻;所述第一时间段的统计结果基于所述当前统计周期的开始时刻至所述前一次收集到的原始数据对应的时刻之间对应的各个原始数据和所述统计规则得到。
可选的,所述第一消息队列基于KafKa实现。
可选的,所述以统计规则为依据,基于采集到的日志信息,获得统计相关的原始数据,具体包括:
当所述采集到的日志信息中存在与所述统计规则匹配的字段时,基于所述与所述统计规则匹配的字段,得到所述原始数据。
可选的,当统计周期为多个时,所述原始数据包括参与统计的数据和统计周期标识;所述基于所述与所述统计规则匹配的字段,得到所述原始数据,具体包括:
基于所述与所述统计规则匹配的字段和各个统计周期对应的统计周期标识,得到多个原始数据;
其中,得到的多个原始数据与所述统计周期一一对应,每个得到的原始数据携带对应统计周期的统计周期标识。
可选的,在所述得到第二时间段的统计结果之后,还包括:
将得到的统计结果写入第二消息队列;
获取所述第二消息队列中的统计结果,将获取到的统计结果写入预设存储区域。
可选的,所述第二消息队列基于KafKa实现。
本申请实施例第二方面提供了一种数据获取装置,包括:
采集模块,用于实时采集日志信息;
整理模块,用于以统计规则为依据,基于所述采集模块采集到的日志信息,获得统计相关的原始数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宜人恒业科技发展(北京)有限公司;普信恒业科技发展(北京)有限公司,未经宜人恒业科技发展(北京)有限公司;普信恒业科技发展(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910731693.4/2.html,转载请声明来源钻瓜专利网。