[发明专利]一种基于Flink流计算技术的多源异构数据实时处理系统及方法在审
申请号: | 201910495241.0 | 申请日: | 2019-06-10 |
公开(公告)号: | CN110245158A | 公开(公告)日: | 2019-09-17 |
发明(设计)人: | 肖荣;马思峻;陆晋军;郑荣;丁富强;姚磊;孙海 | 申请(专利权)人: | 上海理想信息产业(集团)有限公司 |
主分类号: | G06F16/2455 | 分类号: | G06F16/2455;G06F16/18 |
代理公司: | 上海国智知识产权代理事务所(普通合伙) 31274 | 代理人: | 潘建玲 |
地址: | 201315 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 多源异构数据 实时处理系统 配置数据 异构数据 输出 业务分析系统 数据集定义 初步处理 方式获取 获取数据 启动数据 任务管理 日志方式 日志事件 实时处理 实时计算 数据采集 数据展现 系统组件 业务系统 源类型 配置 维度 运维 清洗 存储 补充 分析 帮助 | ||
1.一种基于Flink流计算技术的多源异构数据实时处理系统,包括:
数据采集侧,用于通过日志方式和/或SDK方式和/或MQ方式同时获取分散在多个系统组件中的异构数据,经过初步处理后以连续流的方式发送给Kafka;
任务管理平台侧,用于配置数据源类型、配置异构数据的清洗和切分规则以及配置数据集的维度和指标,并于所有配置完成后基于Flink流计算技术启动数据实时处理任务,并于数据实时计算后根据数据集定义存入存储单元;
数据展现和输出侧,用于获取数据集中的结果以图表方式展现或者通过接口方式输出。
2.如权利要求1所述的一种基于Flink流计算技术的多源异构数据实时处理系统,其特征在于:所述日志方式为利用日志数据采集器实时读取指定日志文件的新增内容,发送给日志搜集模块,将获得的数据经日志搜集模块过滤后送入Kafka;所述SDK方式为支持应用或容器中嵌入Agent上传数据作为数据源,Agent上传数据给后台服务,数据经过后台服务处理后进入Kafka;或由Agent直接把数据发送给Kafka作为数据源;所述MQ方式为支持Kafka消息队列作为数据源,数据直接发送给Kafka。
3.如权利要求2所述的一种基于Flink流计算技术的多源异构数据实时处理系统,其特征在于,所述任务管理平台侧包括:
配置单元,用于配置数据源类型、配置异构数据的清洗和切分规则以及配置数据集的维度和指标;
数据处理单元,用于于所有配置完成后基于Flink流计算技术启动数据实时处理任务,并于数据实时计算后根据数据集定义存入存储单元,每个数据实时处理任务对应一个Flink数据切分任务,一个任务中可以有多个数据集,每个数据集对应一个Flink数据集计算任务。
4.如权利要求3所述的一种基于Flink流计算技术的多源异构数据实时处理系统,其特征在于:于配置数据源类型时,若选择日志数据作为数据源,则需要输入日志路径,若选择嵌入SDK Agent上报数据作为数据源,则需要输入SDK Agent的AccessKeys,若选择MQ作为数据源,则需要输入Kafka的Topic。
5.如权利要求3所述的一种基于Flink流计算技术的多源异构数据实时处理系统,其特征在于:于配置异构数据的清洗和切分规则时,采用图形拖拽积木块的方式构建数据切分规则,并于获取抓取的实时数据后,数据切分预览根据定义的数据切分规则进行试切分。
6.如权利要求3所述的一种基于Flink流计算技术的多源异构数据实时处理系统,其特征在于:于配置数据集的维度和指标时,根据切分后的数据定义数据集,并需输入过滤条件、聚合维度、统计指标、时间字段等参数。
7.如权利要求3所述的一种基于Flink流计算技术的多源异构数据实时处理系统,其特征在于,所述数据处理单元进一步包括:
Flink清洗和切分单元,用于消费Kafka中的数据,根据切分规则对数据切分和逻辑处理,并将切分数据再次放入Kafka;
Flink计算单元,从Kafka消费数据后按照时间、维度实时聚合计算,并将计算后的结果存入存储单元;
存储单元,包括ElasticSearch搜索服务器以及InfluxDb时序数据库,所述ElasticSearch搜索服务器用于存储原始数据,所述InfluxDb时序数据库用于保存所述Flink计算单元聚合计算后的时序数据。
8.如权利要求7所述的一种基于Flink流计算技术的多源异构数据实时处理系统,其特征在于,所述配置单元还用于配置自定义报警规则,所述数据处理单元还包括Flink报警处理单元,用于从Kafka的Topic中消费数据后,根据所述报警规则实时判断是否需要报警,生成报警记录,并通知联系人。
9.如权利要求7所述的一种基于Flink流计算技术的多源异构数据实时处理系统,其特征在于:所述任务管理平台侧还包括查询单元,用于根据获取的输入条件查询每个数据集中已经计算完成的数据。
10.一种基于Flink流计算技术的多源异构数据实时处理方法,包括如下步骤:
步骤S1,于数据采集侧,通过日志方式或SDK方式或MQ方式同时获取分散在多个系统组件中的异构数据,经过初步处理后以连续流的方式发送给Kafka;
步骤S2,于任务管理平台侧,配置数据源类型,配置异构数据的清洗和切分规则以及配置数据集的维度和指标,并于所有配置完成后基于Flink流计算技术启动数据实时处理任务,并将数据实时计算后根据数据集定义存入时序数据库;
步骤S3,获取所述任务管理平台侧数据集中的结果以图表方式展现或者通过接口方式输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海理想信息产业(集团)有限公司,未经上海理想信息产业(集团)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910495241.0/1.html,转载请声明来源钻瓜专利网。