[发明专利]一种基于正则表达式的电力大数据采集、存储及分析方法有效
申请号: | 201510109943.2 | 申请日: | 2015-03-13 |
公开(公告)号: | CN104881424B | 公开(公告)日: | 2018-11-23 |
发明(设计)人: | 杨建华;白顺明;肖达强;魏庆海;代勇;刘定宜;高春成;樊爱军;方印;陶力;史述红;王蕾;李守保;王清波;丁鹏;袁明珠;任东明;刘杰;赵显;谭翔;汪涛;袁晓鹏;张雪 | 申请(专利权)人: | 华中电网有限公司;国家电网公司;北京科东电力控制系统有限责任公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q50/06 |
代理公司: | 北京中济纬天专利代理有限公司 11429 | 代理人: | 张晓霞 |
地址: | 430077 *** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于正则表达式的电力大数据采集、存储及分析方法,其特征在于,所述方法包括:(1)电力信息大数据采集;(2)多级存储技术;(3)电力市场大数据主成分分析方法;电力市场大数据主成分分析方法采用基于主成分分析的多元回归方法建立售电量事务信息模型。为了实现电力交易业务的数据增值服务,研究挖掘电力市场大数据价值的方法和技术,提取电力交易中心的交易业务大数据,分析典型应用场景,利用数据集成管理、数据存储、数据计算、分析挖掘等技术,实现面向典型业务场景的模式创新及应用提升。 | ||
搜索关键词: | 一种 基于 正则 表达式 电力 数据 采集 存储 分析 方法 | ||
【主权项】:
1.一种基于正则表达式的电力大数据采集、存储及分析方法,其特征在于,所述方法包括:(1)电力信息大数据采集电力信息采集的大数据主要格式分为:结构化、半结构化和非结构化数据;结构化:指在网页上发布的表格,内涵标准的数据库数据,可直接读取存储进关系数据库中;半结构化:指虽然用表格显示在网页中,但是内容行或者列之间的数据不一致,需要逐行或者逐列处理;或者将结构化的数据以文本行的形式显示,中间用分隔符分割的情况;非结构化:纯文本数据,需要从文本中按照一定的规则查找匹配需要的数据;采集的数据按照数据类型可分类:文本、多媒体、表格;爬虫将网页下载之后,根据HTML的语法规则,从中找出标题、主体中的文本内容,找出多媒体链接、以及内嵌的表格,分别对文本、多媒体、表格进行处理;其中,文本采集模式:采用正则表达式进行匹配,JAVA内置的正则表达式基本满足要求,也可将匹配规则写成PERL脚本,其对文本的处理更加全面;模式数据库中存储的是正则表达式的模板,其中的关键词可以成组进行,使用正则表达式中的[]进行多选匹配,也可逐一进行;但是这些具体的匹配表达式中的关键词需要程序根据数据库中指定的关键词进行动态修改后再进行匹配;匹配时要考虑到数字的大写,年份的简写及诸多的特殊情况,因此匹配模式是需要经常修改的,尤其在前期的测试维护中,先大范围的搜索,再去除不符合的特殊情况;要考虑到书面用语中的的匹配;要考虑到关键词位置的变换,需要通过实际阅读网络文章,搜集可能出现的情况进行整理,匹配到最全的数据;图像采集模式:有些数据是以图片的是发布的,也可能有些照片是需要搜集的,因此图像的采集只是按照指定的格式、尺寸、文件大小等进行抓取即可;由于不同的网站可能对图像添加了水印或者重新进行了编码压缩,导致检测图像的重复会很困难,因此只能检测绝对重复的图像,而不检测相似图像;每张图片保存其MD5值即可,重复的一律删除;表格采集模式:先要在网页源文件中获取内置表格,并对表格的名称或者其中的文字进行快速检索,发现关键词才进行采集;数据采集完毕后,对采集的数据再次进行过滤,主要过滤掉重复、错误的数据,将数据进行分类,以便存入数据库中;不同的网页显示的数据值可能有出入,这就需要制定规则,如何处理不同的数据,具体的情况要视情而定;将所有的过滤及融合的模式设定好,程序自动进行;如果出现特殊情况,则需要人工判断处理;(2)多级存储技术电力交易的结构化和非结构化的大数据经过抽取后,都以文件形式存储在分布式文件系统HDFS中;其中,Oracle、DB2、SQL Server、MySQL结构化的大数据存储在分布式数据仓库Hive中,从网络客户端得到的非结构化数据存储在分布式数据库HBase中,以列族为组织形式,一个列族里的所有列成员都将最终存储在同一个HDFS文件中,而不同的列族有着各自对应的HDFS文件;存储在HDFS上的文档支持超大文件,它通常为数百GB、甚至数百TB大小的文件;HDFS是一个高容错性的分布式文件系统,适合部署在廉价的机器上,能够提供高吞吐量的数据访问,适合大规模数据集上的应用;电力市场大量的非结构化数据可以存储在分布式文件系统HDFS上,供分析使用;HDFS系统由Client、NameNode、DataNode构成:(a)Client通过与NameNode和DataNode交互访问HDFS中的文件;提供了一个类似POSIX文件系统的接口供用户调用;(b)NameNode是整个文件系统管理者,负载管理HDFS的目录树和相关的文件元数据信息,负责监控各个DataNode的健康状态,一旦发现DataNode挂掉,则将该DataNode移出HDFS并重新备份上面的数据,保证系统的高容错性;(c)DataNode负责实际的数据存储,并将数据信息定期汇报给NameNode;DataNode以固定大小的block块为基本单位组织文件内容,默认情况下block大小为64M;当客户端上传一个大的文件到HDFS上时,文件会被分割成若干个block,分别存储在不同的DataNode;同时为了数据局的可靠性会将每个block写到若干个不同的DataNode上,这种文件切割后存储的过程对用户是透明的;HBase介于nosql和RDBMS之间,仅能通过主键(row key)和主键的range来检索数据,仅支持单行事务,可通过hive支持来实现多表join等复杂操作;主要用来存储非结构化和半结构化的松散数据;与hadoop一样,HBase目标主要依靠横向扩展,通过不断增加廉价的商用服务器,来增加计算和存储能力;(3)电力市场大数据主成分分析方法电力市场交易数据库的售电事务信息包括交易价格、区域经济指标、天气气候、机组出力、环保指标、燃料价格,其中电力交易价格、经济指标、天气气候的信息因素构成了三维空间,它们之间存在非正交关系;电力市场大数据主成分分析方法采用基于主成分分析的多元回归方法建立售电量事务信息模型;多维空间主成分分析方法具体如下:多维关系主成分分析在代数上的表示是n个随机变量X1,X2,…,Xn的线性组合,其几何意义是对原空间进行线性变换,用新的坐标系重新表示原空间,新坐标系是由原坐标系旋转后得到的,新坐标系的坐标轴相互正交并代表数据变异性最大的方向,提供一个对协方差结构的较为简单但更为精炼的刻画;主成分,设X=(X1,X2,…,Xn)T为一n维随机向量,其主成分为Yi(i=1,2,…,k,k≤n),则Yi满足以下条件:(2)Y1,Y2,…,Yk互不相关(3)ai的取值使得Var(Yi)最大主成分法分析的基本步骤如下:设R是随机向量X=(X1,X2,…,Xp)T的协方差矩阵;它有特征值和特征向量对(λ1,e1),(λ2,e2),…,(λp,ep),其中λ1≥λ2≥…≥λp≥0;则第i主成分是:此时:其中,由于经过标准化以后的样本N和J为标准化样本矩阵的行标和列标,t∈N,j∈J,其中的每个因素的观测值ytj都服从正态分布,所以协方差矩阵为R=(rij)J×J,其中,r为协方差矩阵的因子,i,j∈J;特征值的大小反映了与之相关的主成分所包含新信息的比重大小,即样本在这一方向上变异程度的大小;所以当特征值接近零时与之相关的主成分已经不包含新的信息,引入其将会增大空间的自相关性;累计贡献率,第i主成分的累计贡献率定义为:a为0~1之间的任意数,βs≥a,Y1,Y2,…,Ys称为样本X1,X2,…,Xp的显著性水平为a的主成分,以Y1,Y2,…,Ys来代替X1,X2,…,Xp,对原空间在给定显著性水平下进行重新表示;βs是表征前s个主成分所含信息的比重。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中电网有限公司;国家电网公司;北京科东电力控制系统有限责任公司,未经华中电网有限公司;国家电网公司;北京科东电力控制系统有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510109943.2/,转载请声明来源钻瓜专利网。
- 上一篇:一种多功能测控装置定值展示方法
- 下一篇:舆情的证据获取方法及系统