[发明专利]基于SparkStreaming的电力系统日志数据实时处理方法有效
申请号: | 201710951969.0 | 申请日: | 2017-10-13 |
公开(公告)号: | CN107704594B | 公开(公告)日: | 2021-02-09 |
发明(设计)人: | 宋爱波;涂金林 | 申请(专利权)人: | 东南大学 |
主分类号: | G06F16/2453 | 分类号: | G06F16/2453;G06F16/242;G06F16/2455 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 210096 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 sparkstreaming 电力系统 日志 数据 实时处理 方法 | ||
本发明公开了一种基于Spark Streaming的电力系统日志数据实时处理方法,首先针对全网日志数据流急剧增长,处理系统获取的日志数据的类别以及相关属性变化多样的问题,预定义统计模型,降低处理系统预处理的时间;然后通过对块间隔和处理时间关系的分析,发现基于块间隔的动态调整,能够使查询任务的处理时间达到最优;最后基于该方法设计了高效的动态调整策略,及时探寻到最优的块间隔,减少查询任务的处理时间,借此分析电力调度自动化系统的运行状态和轨迹,实现电力系统健康状况定性到定量的分析转换。本发明从而为电力系统日志数据的有效管理提供了一种高效、易用的实时处理方法。
技术领域
本发明涉及一种电力系统日志数据实时处理方法,尤其涉及一种基于SparkStreaming的电力系统日志数据实时处理方法。
背景技术
电力是现代化社会运转和发展的基础产业,电力系统的安全和稳定关系到人类社会生活的方方面面。电力调度自动化系统作为一种数据处理系统,其包含电力系统运行信息、分析决策工具和控制手段。电力调度自动化系统在运行过程中会产生状态、调试、错误等数据,这类数据统称为日志数据。日志数据作为电力系统运行信息的一种表现形式,对其进行快速、准确的分析,对于电力系统安全稳定运行具有重要的保障作用。
随着调度自动化系统规模的不断扩大,电力系统需要实时处理的日志数据量急剧增加。面对全网实时日志数据呈现出大数据量,增长迅速的特点,对其计算、分析、仿真以及优化等需求远远超过普通计算系统的承受能力,传统的日志管理手段已无法满足海量日志数据的管理和分析需求。早先的流式处理系统通过丢弃一部分输入数据流(例如分级卸载),选择具有鲜明特点的数据进行处理,或者通过灵活的增加额外的资源。但通常来说,丢弃数据不是一个很好的选择,很有可能丢弃的数据非常重要,因而影响结果的正确性;而且对于高吞吐率的实时数据流,预先的获取相关资源,这种代价是巨大的。
为了确定系统运行的趋势和模式、查明故障等,分析电力调度自动化系统的运行状态和轨迹,需要做到在线实时分析。受到磁盘性能的影响,日志数据未能及时处理导致数据丢失,必须借助内存的快速处理能力。同时,面对系统资源和状态的不断变化,处理系统要能够及时的做出调整,确保系统的处理时间达到最优。
针对以上问题,研究者们开始关注如何利用内存资源突破I/O瓶颈,提高数据吞吐率,加快数据的处理速度。Apache Spark就是其中脱颖而出的开源计算框架。Spark基于内存的迭代计算框架能够在内存中多次操作特定数据集,实现大数据的快速分析处理。SparkStreaming作为其上层工具,提供基于间隔的实时处理功能。数据流划分成若干数据块的时间称为块间隔,若干数据块组合成一个批次的时间称为批间隔。这种方式能够很好的满足电力调度自动化系统对某个时间段内数据的实时处理需求。
一般情况下,如果Spark Streaming处理数据的并行度(一个批次中包含数据块的数量=批间隔/块间隔)越低,那么资源的开销和利用率将会越小,例如任务的创建、交互等。而大规模的并行计算将会导致大量的资源开销,同时伴随着极高的资源利用率。为了及时的了解电力调度自动化系统的运行状态和轨迹,实现电力系统健康状况定性到定量的分析转换,这就需要确保查询任务能够达到较低的资源开销和更高的资源利用率。为了权衡资源的开销和利用率,在面对不同的系统状态和资源变化时,处理的并行度需要及时调整。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710951969.0/2.html,转载请声明来源钻瓜专利网。