[发明专利]一种用于流计算的数据处理方法与设备有效
申请号: | 201410679749.3 | 申请日: | 2014-11-24 |
公开(公告)号: | CN105701018B | 公开(公告)日: | 2019-01-11 |
发明(设计)人: | 刘健男;黄晓锋 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F12/02 | 分类号: | G06F12/02 |
代理公司: | 上海百一领御专利代理事务所(普通合伙) 31243 | 代理人: | 陈贞健 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 计算 数据处理 方法 设备 | ||
本申请的目的是提供一种用于流计算的数据处理方法与设备;获取流计算信息中的目标消息;通过布隆过滤器判断对应存储是否包括所述目标消息所对应的中间数据结果;当判断所述对应存储包括所述中间数据结果时,检验所述中间数据结果是否已存在;基于检验所得信息,对所述目标消息执行相应的数据计算。与现有技术相比,本申请通过布隆过滤器检测目标消息对应的中间结果信息是否已存在,以及对被判断为已存在的中间结果信息的进一步检测,实现对目标消息的流计算;由于布隆过滤器具有非常好的空间和时间效率,本申请显著减少了内存查询时间,在保障不影响内存工作的前提下有效地提高了流计算的实时性,减少了响应延迟,改善了用户的使用体验。
技术领域
本申请涉及计算机领域,尤其涉及一种用于流计算的数据处理技术。
背景技术
在分布式流计算过程中,会产生很多中间数据结果,通常后续计算需要应用之前计算的中间数据结果。一般做法是在规定时间内,将所述中间数据结果保存在对应内存中,以便快速地满足后续计算需要,但是当流处理信息量增大,有限的内存存储过多的中间数据结果会导致内存溢出,甚至使得整个流计算无法进行。
此时,现有技术通过引入辅助存储装置,将中间结果保存到辅助存储装置中并不断地释放内存空间来解决内存溢出问题。但是在实际计算中,对于接收到的流消息,需要先进行一次内存查找,当判断不存在时,需要再进行一次辅助存储装置查找,若流消息是新消息,则所述辅助存储装置查找的时间就是被浪费的时间,所以当全部消息中新消息的比重较大时,会带来极大的时间开销,对整个流计算系统的计算速度产生较大的不利影响。
发明内容
本申请的目的是提供一种用于流计算的数据处理方法与设备。
根据本申请的一个方面,提供了一种用于流计算的数据处理方法,包括:
获取流计算信息中的目标消息;
通过布隆过滤器判断对应内存是否包括所述目标消息所对应的中间数据结果;
当判断所述对应内存包括所述中间数据结果时,检验所述中间数据结果是否已存在;
基于检验所得信息,对所述目标消息执行相应的数据计算。
根据本申请的另一方面,还提供了一种用于流计算的数据处理设备,包括:
第一装置,用于获取流计算信息中的目标消息;
第二装置,用于通过布隆过滤器判断对应存储是否包括所述目标消息所对应的中间数据结果;
第三装置,用于当判断所述对应存储包括所述中间数据结果时,检验所述中间数据结果是否已存在;
第四装置,用于基于检验所得信息,对所述目标消息执行相应的数据计算。
与现有技术相比,本申请通过布隆过滤器检测目标消息对应的中间结果信息是否已经存在,以及对被判断为已存在的中间结果信息的进一步检测,实现对目标消息的流计算;由于布隆过滤器具有非常好的空间和时间效率,本申请显著减少了内存查询所需的时间,从而有效提高了流计算的实时性,并减少了响应延迟、改善了用户的使用体验。同时,由于布隆过滤器极低的误判率,它避免了现有技术中当接收到新的流消息时绝大多数需要到辅助存储中进行的无用查找。此外,本申请克服了布隆过滤器因存在误判而导致时延增加而不能应用于流计算的技术偏见,通过对由布隆过滤器判断为已存在的中间结果信息进行进一步的检验,来排除布隆过滤器可能导致的误判结果。在本申请中布隆过滤器的误判所带来的不利影响是产生极少量无用的辅助存储查找,但是它所损耗的不必要时间非常少。总体而言,本申请与现有技术相比可以保障在不影响内存工作的前提下最大程度地提高流计算系统的计算速度。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410679749.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:数据存储量的预测方法和预测装置
- 下一篇:系统错误排除方法