[发明专利]一种基于Spark流式分类的电力窃电用户识别方法在审
申请号: | 201910265689.3 | 申请日: | 2019-04-03 |
公开(公告)号: | CN110119421A | 公开(公告)日: | 2019-08-13 |
发明(设计)人: | 吴晟;舒珏淋 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F16/25 | 分类号: | G06F16/25;G06F8/41;G06F9/445;G06F16/2455;G06Q50/06 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 窃电用户 用户数据 电力系统 集群 流式 队列 预处理 决策树模型 决策树算法 程序分析 机器学习 实时获取 实时计算 实时收集 数据传输 数据读取 自动识别 容错性 实时性 分类 窃电 写入 数据库 并用 | ||
1.一种基于Spark流式分类的电力窃电用户识别方法,其特征在于:通过Nginx集群作为数据采集系统,不断的接收来自电力系统的用户数据流,利用Kafka集群作为消息缓存队列服务器,接收Nginx传过来的用户数据流,通过Spark Streaming把从Kafak集群接收来的实时用户数据流分成多个数据块存放在内存里,并在间隔时间内对内存中的数据块进行批处理,Spark通过算子对离散流进行数据的预处理,并把分析处理结果写入到Hbase数据库里,利用Spark的机器学习库MLlib对Hbase数据库里的数据实现决策树建模,识别出窃电用户,并通过echarts进行可视化。
2.根据权利要求1所述的基于Spark流式分类的电力窃电用户识别方法,其特征在于:所述基于Spark流式分类的电力窃电用户识别方法的具体步骤如下:
Step1、搭建Nginx集群采集数据,代替flume监听log文件夹,直接把数据导入kafka集群;具体包括:
Step1.1、上传Nginx压缩包到Linux集群,并解压;进入Nginx源码目录安装gcc编译器进行预编译;
Step1.2、编译安装Nginx,启动Nginx,查看Nginx的进程,验证是否开启;
为Nginx集群安装nginx-kafka插件,根据kafka的配置文件,修改Nginx.conf文件,使Nginx集群与kafka集群进行结合;
Step2、初始化创建SteamingContext对象,该对象中的参数包括:SparkContext和批处理时间,同时对批处理时间间隔进行参数的设置,从而找到批处理时间;
Step3、利用direct方式接收kafka集群的用户数据源,并存储在Spark Executor的内存中,之后SparkStreaming启动job对数据进行预处理,把处理之后的用户数据实时存入Hbase数据库里;
Step4、使用基于Hadoop平台的Spark MLlib库对传感器数据进行分类模型计算,通过流式决策树算法对采集并存储到Hbase数据库中的数据进行分类分析,分类并且识别窃电用户的用电数据;
Step5、使用创建的HTable对象中的put()函数将获取到的窃电用户数据存入到Hbase数据库,并用echarts进行可视化展示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910265689.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:数据编配平台管理
- 下一篇:小微信贷租户数据仓库数据处理系统及设备