[发明专利]一种可变间隔的去除重复流数据的会话窗口设计方法在审
申请号: | 201811643214.5 | 申请日: | 2018-12-29 |
公开(公告)号: | CN109871248A | 公开(公告)日: | 2019-06-11 |
发明(设计)人: | 何江;于伟;武新 | 申请(专利权)人: | 天津南大通用数据技术股份有限公司 |
主分类号: | G06F9/451 | 分类号: | G06F9/451;G08G1/065 |
代理公司: | 天津滨海科纬知识产权代理有限公司 12211 | 代理人: | 杨慧玲 |
地址: | 300384 天津市滨海新区高新区*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 构建 去除 驱动器 会话窗口 可变间隔 流数据 窗口创建 窗口机制 输出窗口 预设规则 重复数据 合并 分配器 输出器 重复 分配 创建 | ||
本发明提供了一种可变间隔的去除重复流数据的会话窗口设计方法,包括如下内容:构建分配器,用于创建窗口并为窗口分配元素;为每一个窗口构建驱动器,驱动器用于对窗口进行操作;构建输出器,用于按照预设规则输出窗口中的元素;为窗口创建合并机制。本发明通过特定的合并窗口机制实现窗口的重复数据的去除。
技术领域
本发明属于流计算技术领域,具体涉及一种流计算系统中会话窗口的设计,特别是一种可变间隔的去除重复的流数据会话窗口设计方法。
背景技术
流数据可以看成是一组组离散事件集合体,由成千上万的数据源,源源不断的持续生成,生成的数据流以log(非传统意义上的系统日志)方式传送。流数据具有四个特点:1)数据实时到达;2)数据到达次序独立,不受应用系统所控制;3)数据规模宏大且不能预知其最大值;4)数据一经处理,除非特意保存,否则不能被再次取出处理,或者再次提取数据代价昂贵。
流计算的产生即来源于对于流数据加工时效性的严苛需求:数据的业务价值随着时间的流失而迅速降低,因此在数据发生后必须尽快对其进行计算和处理。通常而言,流计算具备三大类特点:1)实时且无界的数据流;2)持续且高效的计算3)流式且实时的数据集成。
在流处理应用中,数据是连续不断的,因此我们不可能等到所有数据都到了才开始处理。当有时我们需要做一些聚合类的处理,而聚合操作只能作用在特定的数据集,也即有界的数据集上。因此需要通过某种方式从无界的数据集上按特定的语义选取出有界的数据。窗口是一种非常常用的设定计算边界的方式。窗口可以是时间驱动的,也可以是数据驱动的。一种经典的窗口分类可以分成:翻滚窗口,滚动窗口,和会话窗口。
会话窗口是针对分析用户的一段交互的行为事件需求,将用户的事件流按照“session”来分组。session是指一段持续活跃的期间,由活跃间隙分隔开。消息之间的间隔小于超时阈值(sessionGap)的,则被分配到同一个窗口,间隔大于阈值的,则被分配到不同的窗口。
一般而言,窗口是在无限的流上定义了一个有限的元素集合。这个集合可以是基于时间的,元素个数的,时间和个数结合的,会话间隙的,或者是自定义的。窗口的选择与设计是流数据处理的基础,对于后续处理分析有着重要的影响。
现有技术中,对于一般会话窗口来说,当元素被分配到窗口之后,这些窗口是固定的不会改变的,而且窗口之间不会相互作用。对于某些场景存在数据重复冗余的问题,比如需要对窗口中的数据求和的情况,或者需要前期去除重复数据以减少处理函数的计算与存储所需的资源的情况。因此,针对同一种要素(Key)在相同的时间间隔内(gap)同一种访问操作重复出现多次的情况,需要提出一种简便,高效的去重会话窗口设计方法。
发明内容
有鉴于此,本发明旨在提出一种可变间隔的去除重复流数据的会话窗口设计方法,以解决流数据处理中特定应用场景中数据重复冗余的问题。
为达到上述目的,本发明的技术方案是这样实现的:
一种可变间隔的去除重复流数据的会话窗口设计方法,包括如下内容:
步骤1、构建分配器(assigner),用于创建窗口并为窗口分配元素;
步骤2、为每一个窗口构建驱动器(trigger),用于对窗口进行操作;
步骤3、构建输出器(evictor),用于按照预设业务规则输出窗口中的元素;
步骤4、为会话窗口(session window)创建合并机制。
进一步的,所有窗口的组件都位于一个算子(operator)中,数据流源源不断地进入算子,每一个到达的元素都会被交给分配器。分配器按照预设好的规则将每一个到达的元素放入一个或者多个窗口(window)中,并且按照需求创建新窗口。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津南大通用数据技术股份有限公司,未经天津南大通用数据技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811643214.5/2.html,转载请声明来源钻瓜专利网。