[发明专利]一种基于flink的流计算性能优化系统及方法在审
申请号: | 202010732081.X | 申请日: | 2020-07-27 |
公开(公告)号: | CN112084016A | 公开(公告)日: | 2020-12-15 |
发明(设计)人: | 赵云鹏 | 申请(专利权)人: | 北京明略软件系统有限公司 |
主分类号: | G06F9/50 | 分类号: | G06F9/50;G06F11/30 |
代理公司: | 青岛清泰联信知识产权代理有限公司 37256 | 代理人: | 李祺 |
地址: | 100089 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 flink 计算 性能 优化 系统 方法 | ||
本发明公开了一种基于flink的流计算性能优化系统及方法,属于流计算技术领域。本系统监控模块,用于实时监控并获取flink运行过程中不同阶段的运行参数;数据收集模块,用于将从所述监控模块获取的运行参数输出至一数据库中;策略调整模块,根据所述数据库中的运行参数,结合预设的启动参数,通过策略调整算法,输出下一步的运行方案;运行管理模块,根据所述策略调整模块输出的运行方案调整运行参数,并应用到flink运行中。本发明用于flink流计算场景资源分配自动适配,可以提高流计算服务的实际吞吐量,充分发挥硬件性能;节省开发和调试成本,由程序自行运行判断,降低人力成本。
技术领域
本发明涉及流计算技术领域,尤其涉及一种基于flink的流计算性能优化系统及方法。
背景技术
大数据是一种时下流行的IT应用技术,通过hadoop/sparka等常见模块系统对电商、金融、工业、通信等各个领域提供了海量数据的存储、查询和分析功能。在各类场景下,都会出现大规模实时计算的业务诉求,需要实时接入从不同来源、不同渠道传来的海量数据,在传输过程中进行转换、抽取、清洗,并进行一些简单计算,一方面是在数据进行入库存储之前进行必要的转换,以满足存储需求,另一方面是有很多需要实时演算的业务需求,比如实时预警、实时统计等。
在这些计算过程中,主要的性能消耗来源于各类数据交换,如何使有限的硬件资源充分发挥效率,达到一个尽可能高的产出,是问题所在。
现有技术中,通过flink任务启动配置进行静态资源分配,分配逻辑固定,需要人工手动配置,需要事先根据要处理的数据、业务逻辑对计算用量进行估算,设置合理的资源配置方式,无法根据实际数据情况进行自动调整。
本发明基于flink的流计算方式,通过制定一系列方法、策略,制定了一种针对大数据流计算场景可以自主调节、进行性能优化的方案,配置简单,功能强大而且可以适用于多种场景。
发明内容
本发明针对上述问题,提出了一种基于flink的流计算性能优化系统及方法,具有自动检测和调节当前配置设置,优化系统运行状况,提高整体系统吞吐量的优点。
为了实现上述目的,本发明提供了如下技术方案:
一种基于flink的流计算性能优化系统,包括:
监控模块,用于实时监控并获取flink运行过程中不同阶段的运行参数;
数据收集模块,用于将从所述监控模块获取的运行参数输出至一数据库中;
策略调整模块,根据所述数据库中的运行参数,结合预设的启动参数,通过策略调整算法,输出下一步的运行方案;
运行管理模块,根据所述策略调整模块输出的运行方案调整运行参数,并应用到flink运行中。
优选的是,所述运行参数包括并行度、每个taskmanager上的slot数、每个taskmanager所分配的内存大小、CUP数量以及吞吐量。
优选的是,所述策略调整算法为:通过比较实际运行的吞吐量的大小,不断缩小并行度的范围,最终确定并行度的值,再根据并行度的值输出每个taskmanager上分配的内存大小,得到运行方案。
优选的是,所述系统应用在flink中,用于调整运行参数、启动和停止flink服务。
本发明还提出一种基于flink的流计算性能优化方法,包括以下步骤:
S1:实时获取flink运行过程中不同阶段的运行参数;
S2:将S1中获取的运行参数输出至一数据库中;
S3:根据数据库中的运行参数,结合预设的启动参数,通过策略调整算法,输出下一步的运行方案;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明略软件系统有限公司,未经北京明略软件系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010732081.X/2.html,转载请声明来源钻瓜专利网。