[发明专利]一种互联网采集数据的过程化处理方法在审
申请号: | 201611044723.7 | 申请日: | 2016-11-24 |
公开(公告)号: | CN106776786A | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 王颜;王洪添 | 申请(专利权)人: | 山东浪潮云服务信息科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 济南信达专利事务所有限公司37100 | 代理人: | 孟峣 |
地址: | 250100 山东省济南市高*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 互联网 采集 数据 过程 处理 方法 | ||
技术领域
本发明涉及计算机应用技术领域,具体地说是一种互联网采集数据的过程化处理方法。
背景技术
互联网网页数据是大数据领域的一个重要组成部分,是互联网等公司获取用户消费、交易、产品评价信息以及其他社交信息等数据的重要途径,为数据服务提供了丰富的数据基础,因此,对互联网网页数据处理流程和技术进行探索具有重要意义。
目前对采集数据的处理主要是进行抽取、转换、加载,即ETL。ETL工具将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。但是数据采集过程中经常会遇到数据源单一、定期采集、数据质量问题规律性不强的问题,数据采集过程容易出现异常,在处理异常时其处理效率不高,基于此,现提供一种互联网采集数据的过程化处理方法,对于数据源单一且数据质量问题规律性不强的采集数据,采用基于SQL的过程化数据处理方法,配合规范化的处理流程,实现数据的清洗、处理及数据处理过程的监控。
发明内容
本发明的技术任务是针对以上不足之处,提供一种互联网采集数据的过程化处理方法。
一种互联网采集数据的过程化处理方法,其实现过程为:根据采集数据的数据质量问题及数据需求,完成采集数据的清洗及处理,并监控整个数据处理过程,该数据处理过程包括包括开始执行、执行结束、处理过程实际执行的SQL语句、完成处理的数据量、执行异常信息,将监控信息保存到相应的数据表,形成完善的数据处理机制。
采集数据进行清洗、处理的具体步骤为:
一、首先整理采集数据表;
二、然后分析采集数据表的数据规范性,编写数据清洗SQL,完成包括去除重复数据、规范数据显示格式的数据清洗工作,清洗后的数据分别保存到临时表中;
三、编写数据处理SQL,该数据处理SQL根据临时表之间的关联得到综合信息、汇总信息、分指标汇总信息,处理后的数据保存到目标表中;
四、设计存放数据清洗、处理SQL的表;
五、数据清洗、处理过程中的SQL均通过动态SQL执行,将动态SQL保存到步骤四设计的表中,相对应的,该表中包含:执行SQL的存储过程名称、SQL执行时间、实际执行的SQL语句,方便查看实际执行的数据清洗、处理脚本。
在监控整个数据处理过程时,首先需要获取数据处理过程中产生的具体数据信息:
首先记录存储过程开始执行时间;
进行采集数据清洗及处理的步骤,保留处理过程中的中间表或临时表,并将最终处理结果保存至目标表,记录各级数据处理过程的实际执行SQL;
记录本次清洗完成后保存到目标表的采集数据量;
记录存储过程结束执行时间;
当处理过程出现异常时,记录存储过程执行异常信息。
监控数据处理过程中产生的数据保存在以下对应的日志表中:
记录存储过程的执行日志表;
记录实际执行的SQL脚本的SQL日志表;
记录数据处理完成后的数据量的变化日志表;
记录数据处理过程中的异常信息的异常信息表。
上述执行日志表通过具有记录存储过程执行情况的函数记录,该函数通过输入参数,将输入参数相关信息保存到执行日志表中,这里的输入参数包括:过程名称、执行标志、执行时间、存储过程生成的目标数据量,这里的执行标志是指开始或结束两种标志。
所述变化日志表通过记录数据处理完成后的数据量的函数实现,该函数通过输入参数,将输入参数相关信息保存至该变化日志表中,其输入参数包括:存储过程名称、目标表名称、目标表本次新增记录数、新增记录时间。
所述异常信息表通过记录存储过程执行异常情况的函数实现,该函数通过输入参数,将将输入参数相关信息保存到异常信息表中,其输入参数包括:存储过程名称、执行异常时间、执行异常代码、执行异常信息。
本发明的一种互联网采集数据的过程化处理方法和现有技术相比,具有以下有益效果:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东浪潮云服务信息科技有限公司,未经山东浪潮云服务信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611044723.7/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置