[发明专利]一种数据的窗口统计方法、装置及系统有效
申请号: | 201610389600.0 | 申请日: | 2016-06-03 |
公开(公告)号: | CN106909495B | 公开(公告)日: | 2020-07-03 |
发明(设计)人: | 王鑫文;李奡海 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F11/34 | 分类号: | G06F11/34 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 李辉 |
地址: | 英属开曼*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 窗口 统计 方法 装置 系统 | ||
本申请提供一种数据的窗口统计方法、装置及系统。所述方法可以获取当前时刻业务维度的单位时间级数据,以及所述当前时刻的上一个单位时间业务维度的历史窗口统计结果;从存储的历史单位时间级数据中查询出所述当前时刻的周期窗口负数据,根据所述周期窗口负数据和所述当前时刻业务维度的单位时间级数据计算得到当前时刻的业务维度增量数据;基于所述历史窗口统计结果和所述当前时刻的业务维度增量数据确定所述当前时刻业务维度的窗口统计结果。利用本申请中各个实施例,可以对数据实时窗口统计时大幅降低系统的内存开销,提高系统性能,降低网络开销,提高窗口统计系统的数据处理效率。
技术领域
本申请属于计算机数据处理领域,尤其涉及一种数据的窗口统计方法、装置及系统。
背景技术
在搜索系统中,常常需要统计过去一段时间内用户搜索最高的TOPN关键词,以捕捉用户的关注焦点。例如实时统计过去24小时内用户搜索次数最高的100个关键词。
在搜索统计中常用的搜索关键词统计方式包括采用加法模式和减法模式的窗口统计。所述的窗口统计指在对过去窗口时窗长度时间内段的数据值进行统计,生成当前统计时刻的统计结果。例如当前统计时刻2016-3-13 10:20“关键词A”的5分钟窗口统计可以指从2016-3-13 10:15到2016-3-13 10:20时间段内“关键词A”的总搜索次数。现有技术中常用的窗口统计方法包括加法模式的窗口统计。图1是现有技术中一种采用加法模式进行窗口统计的流程示意图。具体的如图1所示,在实施过程中,可以以分钟为单位时间,系统每分钟将用户所搜索的关键词及关键词的搜索次数以搜索日志的方式存储在数据库中,如HBase(HBase是一个分布式的、面向列的开源数据库)。窗口统计时,在当前这一分钟统计时刻将过去24小时记录的每分钟的关键词及统计次数从HBase中查询出来。然后可以将查询出的过去24小时的搜索关键词及统计次数(24*60)累加,累加后的值加上当前这一分钟关键词及统计次数得到当前统计时刻关键词的24小时窗口统计值。进一步的,可以将所述当前统计时刻关键词的24小时窗口统计值按照关键词的搜索次数进行TOP100排序,得到当前统计时刻的搜索关键词TOP100。最后,可以实时更新当前这一分钟的搜索关键TOP100的记录信息。
而随着互联网信息技术的快速发展,用户单位时间内的关键词搜索量呈大幅上升趋势。一些业务系统的搜索系统中,两天内的搜索关键词可以达到百万数量级,每分钟搜索关键词可以达到2000个左右,甚至更高。相应的,数据库如HBase每天需要存储的数据达2000*24*60条。在上述加法模式的窗口统计中,系统需要将大约2000*24*60*0.4K(某系统中的每条数据大小)=1152MB数据加载到内存中进行计算。这样,在分钟级的窗口计算时需要将大约1G,甚至有些系统达到2G或3G的庞大数据加载到内存进行计算处理,大大增加了系统的处理风险和系统开销。甚至,有些系统限于处理能力不能再规定时间内将需要处理的数据加载到应用内存中,无法完成实时计算。同时,若采用现有技术中的减法模式的窗口统计方式,需要查询上一分钟所有关键词的累计值,以及24小时前所有关键词的累计值。即使按照每分钟1000条关键搜索的数据记录来算,在每分钟窗口统计时,系统的QPS(QueryPer Second,QPS,每秒查询率)将达到1000*24*60/60=24000。并且需要将每分钟的关键词累计值更新至数据库HBase,系统的TPS(Transaction Per Second,TPS,每秒事务处理量)也常常达到1万以上,对数据库的性能要求也会非常的高,相应的增加了系统成本。
现有技术中采用的加法模式或减法模式的窗口统计方法,对数据存储有较高的TPS、QPS性能要求,在系统窗口统计运行计算时本身需要较高的内存开销和网络开销,增加了系统负载。并且随着业务的不断增加,采用现有技术中的窗口统计方法通常对系统的服务器性能要求也越来越高,也相应的增加了数据处理成本。
发明内容
本申请目的在于提供一种数据的窗口统计方法、装置及系统,可以有效降低系统的内存开销,提高系统性能,降低网络开销,提高窗口统计系统的数据处理效率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610389600.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:剥离式眼线卡
- 下一篇:半导体装置及其制造方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置