[发明专利]一种数据处理方法、装置和计算机可读存储介质在审
申请号: | 201911367948.X | 申请日: | 2019-12-26 |
公开(公告)号: | CN111143415A | 公开(公告)日: | 2020-05-12 |
发明(设计)人: | 孟浩浩;张春鹏 | 申请(专利权)人: | 政采云有限公司 |
主分类号: | G06F16/2455 | 分类号: | G06F16/2455;G06F9/54;G06F16/2458;G06Q40/04 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 史翠 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 装置 计算机 可读 存储 介质 | ||
本发明实施例公开了一种数据处理方法、装置和介质,将获取的各类业务线数据记录至第一消息队列;提取第一消息队列中各类业务线数据的有效数据流。按照预设的窗口时间,利用滑动窗口对各有效数据流进行统计,得到待分析数据块;将各待分析数据块按照其对应的业务处理规则进行分析,并将得到的分析结果存储至第二消息队列。采用消息队列缓存以及滑动窗口读取数据的方式,可以实现对实时业务线数据的直接处理,避免数据读取过程中造成的不必要时间消耗,从而可以更加有效的挖掘出海量数据的价值信息。并且将分析结果存储至第二消息队列,业务方通过读取第二消息队列,可以直观的获取有价值的数据信息。
技术领域
本发明涉及数据技术领域,特别是涉及一种数据处理方法、装置和计算机可读存储介质。
背景技术
电商平台每时每刻都会产生数据流信息,包括用户登录及用户所属地区、平台供应商的销售商品数量、金额、商品类目、采购人的商品浏览信息、采购商品信息等实时信息流数据。在强调数据价值,尤其是实时数据价值的电商平台领域,最短时间范围内、最大限度的梳理平台实时数据之间的关系、重组数据信息结构、发掘数据信息的潜在价值极为重要。
目前市面上很多数据处理框架都是采用从数据库或数据存储介质中读取历史数据,然后再通过批处理方式处理这些数据。这种方式有一些固有的缺陷或不足。缺点一:从数据库或存储介质中读取数据本身需要一定的时间,在某些对数据的时效性要求高的场景中,数据价值就会打相应的折扣。缺点二:批处理自身的特性会造成一批数据全部处理完后再接着处理下一个批次的数据,不仅使得计算引擎本身利用不充分,也使得整个数据池中不同批次数据之间切换造成不可避免的数据处理延迟。缺点三:在某一特定时刻产生的海量数据,由于计算框架自身计算能力的原因,会造成数据处理不及时,甚至造成数据丢失,严重的会造成系统宕机。
可见,如何有效的挖掘海量数据的价值信息,是本领域技术人员需要解决的问题。
发明内容
本发明实施例的目的是提供一种数据处理方法、装置和计算机可读存储介质,可以有效的挖掘海量数据的价值信息。
为解决上述技术问题,本发明实施例提供一种数据处理方法,包括:
将获取的各类业务线数据记录至第一消息队列;
提取所述第一消息队列中各类业务线数据的有效数据流;
按照预设的窗口时间,利用滑动窗口对各有效数据流进行统计,得到待分析数据块;
将各待分析数据块按照其对应的业务处理规则进行分析,并将得到的分析结果存储至第二消息队列。
可选地,所述将获取的各类业务线数据记录至第一消息队列包括:
按照预设的分类规则,对获取的各类业务线数据添加标签信息;
将添加标签信息后的各类业务线数据记录至第一消息队列。
可选地,所述提取所述第一消息队列中各类业务线数据的有效数据流包括:
根据目标业务线数据所对应的时间戳,对所述目标业务线数据进行排序,得到数据流;其中,所述目标业务线数据为所有业务线数据中的任意一个业务线数据;
按照所述目标业务线数据所对应的数据过滤规则,提取出所述数据流中的有效数据流;其中,不同的标签信息有其各自对应的数据过滤规则。
可选地,所述将各待分析数据块按照其对应的业务处理规则进行分析,并将得到的分析结果存储至第二消息队列包括:
当所述待分析数据块为商品交易信息时,根据预先设定的区划信息以及商品类目信息,统计出所述商品交易信息中不同区划下、不同商品类目的销售数量以及销售金额;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于政采云有限公司,未经政采云有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911367948.X/2.html,转载请声明来源钻瓜专利网。