[发明专利]一种工业海量非结构化数据处理方法及系统在审
申请号: | 201910026057.1 | 申请日: | 2019-01-11 |
公开(公告)号: | CN109885607A | 公开(公告)日: | 2019-06-14 |
发明(设计)人: | 汪纯锋;王云福;涂红兵;崔晓光;魏欣南;吴作胜;欧荣贵 | 申请(专利权)人: | 中广核工程有限公司;深圳中广核工程设计有限公司;中国广核集团有限公司;中国广核电力股份有限公司 |
主分类号: | G06F16/25 | 分类号: | G06F16/25;G06F16/215 |
代理公司: | 深圳市顺天达专利商标代理有限公司 44217 | 代理人: | 蔡晓红;柯夏荷 |
地址: | 518124 广东省深圳市大*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 非结构化数据 结构化数据 数据处理 生成器函数 非结构化 时间段 筛选 数据可视化 关系曲线 趋势曲线 筛选条件 一次性 生产管理 构建 运维 转化 清洗 绘制 图像 展示 生产 | ||
1.一种工业海量非结构化数据处理方法,其特征在于,包括:
获取生产中产生的非结构化数据;
将所述非结构化数据转化为结构化数据;
提取所述结构化数据,构建生成器函数,按照生成器函数所建立的筛选条件,对所述结构化数据进行清洗,筛选出有效值,从筛选出的所有时间段和与该时间段对应有效值中分别提取时间和有效值,建立并展示筛选后的时间和有效值之间的关系曲线。
2.根据权利要求1所述方法,其特征在于,所述将所述非结构化数据转化为结构化数据进一步包括:将获取到的非结构化数据通过Spark SQL读取为RDD,或将多个文本文件读取为一个PairRDD,形成带有键值对的文件,并将读取后的结构化数据文件转换为.csv文件;将所述.csv文件保存在存储设备上。
3.根据权利要求1所述方法,其特征在于,所述生成器函数包括设定的单阈值筛选条件,累积阈值筛选条件,在某一时间段按照单阈值筛选条件,累积阈值筛选条件对结构化数据进行清洗,满足单阈值和/或累积阈值筛选条件的结构化数据进行保留,否则进行清洗。
4.根据权利要求3所述方法,其特征在于,所述单阈值筛选条件为:当前值与最新筛选出的值之间的差值与单阈值进行比较,如果大于单阈值作为最新筛选出的有效值进行保留,否则进行清洗;所述累积阈值筛选条件为:当前值和与最新筛选出的值进行比较,如果当前值和最新筛选出来的数值差值的代数和大于累积阈值,则保留最新当前值,并将最新当前值作为最新筛选出的有效值进行保留,否则进行清洗。
5.根据权利要求4所述方法,其特征在于,所述生成器函数还包括绝对阈值筛选条件,所述绝对阈值筛选条件为:当前值与筛选值的累积差值在某一时间段小于绝对阈值,该时间段为恒定段,保留该恒定段的起始点和终点数据值。
6.一种工业海量非结构化数据处理系统,其特征在于,包括:
数据采集模块,用于获取生产中产生的非结构化数据;
数据转换模块,连接所述数据采集模块,用于将所述非结构化数据转化为结构化数据;
数据清洗和展示模块,连接所述数据转换模块,用于提取所述结构化数据,构建生成器函数,按照生成器函数所建立的筛选条件,对结构化数据进行清洗,筛选出有效值,从筛选出的所有时间段和与该时间段对应有效值中分别提取时间和有效值,建立并展示筛选后的时间和有效值之间的关系曲线。
7.根据权利要求6所述系统,其特征在于,所述数据转换模块进一步包括:转换模块和存储模块,转换模块,连接所述数据采集模块,用于将获取到的非结构化数据通过SparkSQL读取为RDD,或将多个文本文件读取为一个PairRDD,形成带有键值对的文件,并将读取后的结构化数据文件转换为.csv文件;存储模块,连接所述转换模块,用于将所述.csv文件保存在存储设备上。
8.根据权利要求6所述系统,其特征在于,所述数据清洗和展示模块进一步包括:数据清洗模块和展示模块,数据清洗模块,用于构建生成器函数,所述生成器函数包括设定的单阈值筛选条件,累积阈值筛选条件,在某一时间段按照单阈值筛选条件,累积阈值筛选条件对结构化数据进行清洗,满足单阈值和/或累积阈值筛选条件的结构化数据进行保留,否则进行清洗。
9.根据权利要求8所述系统,其特征在于,所述生成器模块进一步包括:单阈值筛选模块和累积阈值筛选模块,所述单阈值筛选模块,用于将当前值与最新筛选出的值之间的差值与单阈值进行比较,如果大于单阈值作为最新筛选出的有效值进行保留,否则进行清洗;所述累积阈值筛选模块,用于将当前值和与最新筛选出的值进行比较,如果当前值和最新筛选出来的数值差值的代数和大于累积阈值,则保留最新当前值,并将最新当前值作为最新筛选出的有效值进行保留,否则进行清洗。
10.根据权利要求9所述系统,其特征在于,所述生成器模块还包括:绝对阈值筛选模块,所述绝对阈值筛选模块,用于设定一绝对阈值筛选条件,当前值与筛选值的累积差值在某一时间段小于绝对阈值,该时间段为恒定段,保留该恒定段的起始点和终点数据值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中广核工程有限公司;深圳中广核工程设计有限公司;中国广核集团有限公司;中国广核电力股份有限公司,未经中广核工程有限公司;深圳中广核工程设计有限公司;中国广核集团有限公司;中国广核电力股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910026057.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于超级账本平台的数据存储方法
- 下一篇:一种人工智能大数据的渠务系统