[发明专利]基于流批配合的累计独立访问量确定方法、装置及设备在审
申请号: | 202111138453.7 | 申请日: | 2021-09-27 |
公开(公告)号: | CN113868525A | 公开(公告)日: | 2021-12-31 |
发明(设计)人: | 雷锦伟 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/242;G06F16/215 |
代理公司: | 北京君慧知识产权代理事务所(普通合伙) 11716 | 代理人: | 吴绍群 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 配合 累计 独立 访问量 确定 方法 装置 设备 | ||
本说明书实施例公开了一种基于流批配合的累计独立访问量确定方法,方法包括:通过流数据源获取用户访问流;按照预设的时间间隔从用户访问流中提取用户访问数据,得到批数据源;根据批数据源创建批任务,执行批任务以进行去重,得到至少部分去重的历史访问维表;创建对应于当前时间段的流任务,根据当前的历史访问维表,以及用户访问流中对应于当前时间段的流数据,执行流任务以进行再去重,得到当前时间段内的累计独立访问量。
技术领域
本说明书涉及计算机技术领域,尤其涉及一种基于流批配合的累计独立访问量确定方法、装置及设备。
背景技术
很多情况下,需要统计累计独立访问量,以通过累计独立访问量更好地了解实践效果,比如,某个网站需要统计新用户的增加情况、某个活动需要统计新用户的参与情况。
在流计算场景下,通过流任务确定累计独立访问量。其中,流任务是对当前时间段的访问数据进行实时处理,以确定出当前时间段的累计独立访问量,但仅依靠流任务得到的累计独立访问量可能不准确,难以给用户提供可靠的参考数据。
基于此,现在需要一种准确的方式确定累计独立访问量。
发明内容
本说明书一个或多个实施例提供了一种基于流批配合的累计独立访问量确定方法、装置及设备,用于解决如下技术问题:
在流计算场景下,仅依靠流任务得到的累计独立访问量可能不准确,难以给用户提供可靠的参考数据。
本说明书一个或多个实施例采用下述技术方案:
本说明书一个或多个实施例提供一种基于流批配合的累计独立访问量确定方法,所述方法包括:
通过流数据源获取用户访问流;
按照预设的时间间隔从所述用户访问流中提取用户访问数据,得到批数据源;
根据所述批数据源创建批任务,执行所述批任务以进行去重,得到至少部分去重的历史访问维表;
创建对应于当前时间段的流任务,根据当前的所述历史访问维表,以及所述用户访问流中对应于所述当前时间段的流数据,执行所述流任务以进行再去重,得到所述当前时间段内的累计独立访问量。
本说明书一个或多个实施例还提供一种基于流批配合的累计独立访问量确定装置,所述装置包括:
获取单元,通过流数据源获取用户访问流;
提取单元,按照预设的时间间隔从所述用户访问流中提取用户访问数据,得到批数据源;
维表确定单元,根据所述批数据源创建批任务,执行所述批任务以进行去重,得到至少部分去重的历史访问维表;
累计单元,创建对应于当前时间段的流任务,根据当前的所述历史访问维表,以及所述用户访问流中对应于所述当前时间段的流数据,执行所述流任务以进行再去重,得到所述当前时间段内的累计独立访问量。
本说明书一个或多个实施例还提供一种基于流批配合的累计独立访问量确定设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
通过流数据源获取用户访问流;
按照预设的时间间隔从所述用户访问流中提取用户访问数据,得到批数据源;
根据所述批数据源创建批任务,执行所述批任务以进行去重,得到至少部分去重的历史访问维表;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111138453.7/2.html,转载请声明来源钻瓜专利网。