[发明专利]一种数据处理方法及装置有效

申请号：	201711044290.X	申请日：	2017-10-31
公开（公告）号：	CN107704373B	公开（公告）日：	2021-08-27
发明（设计）人：	马元文	申请（专利权）人：	北京奇艺世纪科技有限公司
主分类号：	G06F11/34	分类号：	G06F11/34
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	王宝筠
地址：	100080 北京市海淀***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种数据处理方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供的一种数据处理方法及装置，接收来自数据源的多条数据，每条数据携带有时间戳，根据每条数据的时间戳，按预设规则判断在第一预设周期内接收到的每条数据是否延迟，将未延迟数据与延迟数据分开统计，对所述第一预设周期内接收到的未延迟数据进行实时统计，将延迟数据进行存储，并定时对延迟数据进行统计，并将相同窗口的实时数据统计结果与延迟数据统计结果进行合并。每次的合并都是对实时统计结果的修复，在每次合并中使统计结果趋于精确，同时满足统计结果的实时性和准确性。

技术领域

本发明涉及数据处理技术领域，更具体的，涉及一种数据处理方法及装置。

背景技术

实时计算是近年来非常火的一种处理技术。相比于批处理，它能够实时的给出计算结果，利于业务组根据系统的情况，快速做出决策。实时计算中有一种常见的场景是根据数据本身的时间，统计一段时间的数据指标，如统计每分钟每个页面的访问次数。

由于数据可能在不同的机器上产生，到达实时计算系统时，数据按时间是乱序的，拥有相同时间戳的数据，到达实时计算系统的时间会有先后。需要对数据按时间戳重排序，时间戳在同一个窗口的放到一起计算。为了计算准确，每个窗口需要设置一定的等待时间，等待时间过了就会计算该窗口的数据给出统计结果，在等待时间之后到达的数据会被丢弃。

举例如下，统计每分钟每个页面的访问次数，假设现在要统计10:00-10:01时间段每个页面的访问次数，如果我们10:01就计算并给出结果，则可能会漏掉部分时间戳在这个时间段，但晚到的数据。一般的做法是等待一段时间，再给出结果，比如10:02再给出10:00-10:01的统计值。等待的时间越长，给出的结果就越准确，同时时效性就越差，而且在给出结果之后的晚到的数据就会被丢弃，造成结果不准确。也就是说，现有的实时统计方法无法同时满足统计结果的实时性和准确性。

发明内容

有鉴于此，本发明提供了一种数据处理方法及装置，将未延迟数据与延迟数据分开统计，对未延迟数据进行实时统计，定时对延迟数据进行统计，并将相同第一预设周期的实时数据统计结果与延迟数据统计结果进行合并，每次的合并都是对实时统计结果的修复，同时满足统计结果的实时性和准确性。

具体技术方案如下：

一种数据处理方法，所述方法包括：

接收来自数据源的多条数据，每条数据携带有时间戳；

根据每条数据的时间戳，按预设规则判断在第一预设周期内接收到的每条数据是否延迟；

对所述第一预设周期内接收到的未延迟数据进行实时统计，得到所述第一预设周期的实时数据统计结果；

对延迟数据进行存储，并将时间戳在所述第一预设周期内且在第二预设周期接收到的延迟数据确定为所述第一预设周期的延迟数据，所述第二预设周期大于所述第一预设周期；

对所述第一预设周期的延迟数据进行统计，得到所述第一预设周期的延迟数据统计结果；

将所述第一预设周期的实时数据统计结果与延迟数据统计结果进行合并，得到所述第一预设周期的数据统计结果。

优选的，所述根据每条数据的时间戳，按预设规则判断在所述第一预设周期内接收到的每条数据是否延迟，包括：

获取所述第一预设周期内接收到的各条数据的时间戳，得到最大时间戳；