[发明专利]一种基于消息队列的数据处理方法、装置、计算机设备和存储介质在审
申请号: | 202110910953.1 | 申请日: | 2021-08-10 |
公开(公告)号: | CN113609429A | 公开(公告)日: | 2021-11-05 |
发明(设计)人: | 曾文清;刘翔;虞孝伟 | 申请(专利权)人: | 广州至真信息科技有限公司 |
主分类号: | G06F16/958 | 分类号: | G06F16/958 |
代理公司: | 广州佳睿知识产权代理事务所(普通合伙) 44610 | 代理人: | 徐燕萍 |
地址: | 510000 广东省广州*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 消息 队列 数据处理 方法 装置 计算机 设备 存储 介质 | ||
本发明涉及一种基于消息队列的数据处理方法、装置、计算机设备和存储介质,该方法包括:服务端获取待统计网站在预设周期内的各页面浏览量、各页面点击量的动作流数据总量;服务端根据各页面浏览量以及各页面点击量,获取消息队列主题名称;将消息队列主题名称,以及动作流数据总量与预设抽样统计规则进行匹配,得到匹配的数据压缩比例;根据该数据压缩比例,对动作流数据总量执行数据抽样,得到统计结果数据发送到消费端;消费端接收统计结果数据,根据结果数据中的数据压缩比例复原统计结果数据,并存储在预设数据库中。实现对动作流数据实时分析和处理,从而减少消息队列生产和消费数据的量级,达到降低成本的效果。
技术领域
本发明实施例涉及信息处理的技术领域,尤其涉及一种基于消息队列的数据处理方法、装置、计算机设备和存储介质。
背景技术
在网站数据统计应用背景下,高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中所有动作流数据。在传统使用Kafka消息队列时,往往为了保证数据的准确性,都会把所有的动作流数据通过Kafka消息队列生产和消费,而当动作流数据量过大时,就需要很多服务器承载数据,造成成本直线上升。
所以,针对上述情况,在Kafka消息队列生产和消费数据的而过程中,通过数据压缩和复原,实现数据流实时分析处理,进而减少对数据的服务器配置是亟待结解决的问题。
发明内容
本发明实施例提出了一种基于消息队列的数据处理方法、装置、计算机设备和存储介质,以解决在消息队列存储收发分布订阅消息的场景中,针对海量数据收发和存储而不停分配服务器造成成本过高的问题。
第一方面,本发明实施例提供了一种基于消息队列的数据处理方法,包括:
消息队列服务端获取待统计网站在预设周期内的各页面浏览量,以及各页面点击量的动作流数据总量;
所述消息队列服务端根据所述各页面浏览量以及所述各页面点击量,获取消息队列主题名称;
所述消息队列服务端将所述消息队列主题名称,以及所述动作流数据总量与预设抽样统计规则进行匹配,得到匹配的数据压缩比例;
所述消息队列服务端根据匹配的所述数据压缩比例,对所述动作流数据总量执行数据随机抽样操作,得到统计结果数据;
所述消息队列服务端将所述统计结果数据发送到消息队列消费端;
所述消息队列消费端接收所述统计结果数据,并获取所述统计结果数据中的所述数据压缩比例;
所述消息队列消费端根据所述数据压缩比例复原所述统计结果数据,得到复原后数据总量,并存储在预设数据库中。
第二方面,本发明实施例还提供了一种基于消息队列的数据处理装置,其特征在于,包括:
动作流数据实时接收模块,用于消息队列服务端获取待统计网站在预设周期内的各页面浏览量,以及各页面点击量的动作流数据总量;
主题名称获取模块,用于所述消息队列服务端根据所述各页面浏览量以及所述各页面点击量,获取消息队列主题名称;
抽样统计规则加载模块,用于所述消息队列服务端将所述消息队列主题名称,以及所述动作流数据总量与预设抽样统计规则进行匹配,得到匹配的数据压缩比例;
动作流数据抽样统计操作模块,用于所述消息队列服务端根据匹配的所述数据压缩比例,对所述动作流数据总量执行数据随机抽样操作,得到统计结果数据;
统计结果数据发送模块,用于所述消息队列服务端将所述统计结果数据发送到消息队列消费端;
数据压缩比例获取模块,用于所述消息队列消费端接收所述统计结果数据,并获取所述统计结果数据中的所述数据压缩比例;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州至真信息科技有限公司,未经广州至真信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110910953.1/2.html,转载请声明来源钻瓜专利网。