[发明专利]一种数据分析方法、系统、终端及存储介质在审
申请号: | 202210504417.6 | 申请日: | 2022-05-10 |
公开(公告)号: | CN115048466A | 公开(公告)日: | 2022-09-13 |
发明(设计)人: | 张园;田舟贤;邵克华;李利椿;强琦 | 申请(专利权)人: | 浙江吉利控股集团有限公司;杭州优行科技有限公司 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F16/27;G06F16/2453;G06F16/22;G06F9/50;G06F9/48 |
代理公司: | 上海波拓知识产权代理有限公司 31264 | 代理人: | 杨波 |
地址: | 310051 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 分析 方法 系统 终端 存储 介质 | ||
本申请涉及一种数据分析方法、系统、终端及存储介质,其中,数据分析方法包括:获取目标对象的行为数据,并按照预设规则将所述行为数据存储至ClickHouse集群;获取数据分析任务信息,并根据所述数据分析任务信息,对所述ClickHouse集群的各节点进行任务调度,以使所述各节点的负载均衡;根据任务调度安排,对所述各节点的行为数据进行分析,生成数据分析产品。本申请提供的数据分析方法、系统、终端及存储介质,利用ClickHouse集群存储行为数据,并采用多种负载均衡策略对数据分析任务进行调度,能够满足超大数据规模下用户行为数据的分析需求,提高数据分析的稳定性及效率,提升数据分析产品的准确性。
技术领域
本申请属于数据分析技术领域,尤其涉及一种数据分析方法、系统、终端及存储介质。
背景技术
在海量用户行为数据的分析领域,大数据原生计算引擎,如hive、spark、presto、impala、elasticsearch等都显得束手无策。业界知名企业往往对大数据计算引擎进行二次开发,从而实现对海量用户行为数据的高效分析,但二次开发成本极高且计算效率往往不如人意,后续维护成本也非常高。所以大多数企业一般会购买商业化产品来弥补在海量用户行为数据分析领域的缺陷,但是昂贵的商业化产品和数据隐私问题也成为了企业发展的潜在隐患。
现有技术,如专利CN202011006169.X,提供一种基于ClickHouse实现OLAP分析的方法,它从建表规范、数据写入、sql查询等领域进行了详细的描述,但并未涉及到面对海量用户行为数据,基于ClickHouse如何打造稳定、高效的数据产品。另外,超大数据规模下用户行为数据分析的计算性能瓶颈,以及ClickHouse集群在达到计算峰值时不稳定等问题仍然存在。
发明内容
针对上述技术问题,本申请提供一种数据分析方法、系统、终端及存储介质,以满足超大数据规模下用户行为数据的分析需求,提高数据分析的稳定性及效率,提升数据分析产品的准确性。
本申请提供了一种数据分析方法,包括:获取目标对象的行为数据,并按照预设规则将所述行为数据存储至ClickHouse集群;获取数据分析任务信息,并根据所述数据分析任务信息,对所述ClickHouse集群的各节点进行任务调度,以使所述各节点的负载均衡;根据任务调度安排,对所述各节点的行为数据进行分析,生成数据分析产品。
在一实施方式中,按照预设规则将所述行为数据存储至ClickHouse集群,包括:根据所述目标对象的身份标识号,对所述行为数据进行哈希分片,将各目标对象的行为数据写入所述ClickHouse集群的对应节点;按照预设存储模式,对所述各目标对象的行为数据进行存储。
在一实施方式中,所述按照预设存储模式,对所述各目标对象的行为数据进行存储的步骤,包括:将所述各目标对象的行为数据按照三级索引顺序进行预排序;其中,一级索引为所述行为数据的事件号;二级索引为所述行为数据所属的目标对象的身份标识号;三级索引为所述行为数据的日志时间。
在一实施方式中,所述数据分析任务信息包括数据分析任务的任务类型;其中,所述任务类型包括事件统计、画像分析、漏斗分析、行为路径分析、表结构变更、清理过期数据中的至少一项。
在一实施方式中,对所述ClickHouse集群的各节点进行任务调度,包括以下至少一项:根据任务执行优先级,按顺序执行不同类型的数据分析任务;根据数据分析任务的任务类型,采取对应的负载均衡策略,其中,所述负载均衡策略包括随机、轮询、最小负载。
在一实施方式中,根据数据分析任务的任务类型,执行对应的负载均衡策略,包括:若所述任务类型为事件统计和/或画像分析和/或漏斗分析和/或行为路径分析,则采取最小负载策略;如所述任务类型为表结构变更,则采取随机策略;若所述任务类型为清理过期数据,则采取轮询策略。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江吉利控股集团有限公司;杭州优行科技有限公司,未经浙江吉利控股集团有限公司;杭州优行科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210504417.6/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置