[发明专利]一种互联网采集数据的过程化处理方法在审

专利信息
申请号: 201611044723.7 申请日: 2016-11-24
公开(公告)号: CN106776786A 公开(公告)日: 2017-05-31
发明(设计)人: 王颜;王洪添 申请(专利权)人: 山东浪潮云服务信息科技有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 济南信达专利事务所有限公司37100 代理人: 孟峣
地址: 250100 山东省济南市高*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 互联网 采集 数据 过程 处理 方法
【说明书】:

技术领域

发明涉及计算机应用技术领域,具体地说是一种互联网采集数据的过程化处理方法。

背景技术

互联网网页数据是大数据领域的一个重要组成部分,是互联网等公司获取用户消费、交易、产品评价信息以及其他社交信息等数据的重要途径,为数据服务提供了丰富的数据基础,因此,对互联网网页数据处理流程和技术进行探索具有重要意义。

目前对采集数据的处理主要是进行抽取、转换、加载,即ETL。ETL工具将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。但是数据采集过程中经常会遇到数据源单一、定期采集、数据质量问题规律性不强的问题,数据采集过程容易出现异常,在处理异常时其处理效率不高,基于此,现提供一种互联网采集数据的过程化处理方法,对于数据源单一且数据质量问题规律性不强的采集数据,采用基于SQL的过程化数据处理方法,配合规范化的处理流程,实现数据的清洗、处理及数据处理过程的监控。

发明内容

本发明的技术任务是针对以上不足之处,提供一种互联网采集数据的过程化处理方法。

一种互联网采集数据的过程化处理方法,其实现过程为:根据采集数据的数据质量问题及数据需求,完成采集数据的清洗及处理,并监控整个数据处理过程,该数据处理过程包括包括开始执行、执行结束、处理过程实际执行的SQL语句、完成处理的数据量、执行异常信息,将监控信息保存到相应的数据表,形成完善的数据处理机制。

采集数据进行清洗、处理的具体步骤为:

一、首先整理采集数据表;

二、然后分析采集数据表的数据规范性,编写数据清洗SQL,完成包括去除重复数据、规范数据显示格式的数据清洗工作,清洗后的数据分别保存到临时表中;

三、编写数据处理SQL,该数据处理SQL根据临时表之间的关联得到综合信息、汇总信息、分指标汇总信息,处理后的数据保存到目标表中;

四、设计存放数据清洗、处理SQL的表;

五、数据清洗、处理过程中的SQL均通过动态SQL执行,将动态SQL保存到步骤四设计的表中,相对应的,该表中包含:执行SQL的存储过程名称、SQL执行时间、实际执行的SQL语句,方便查看实际执行的数据清洗、处理脚本。

在监控整个数据处理过程时,首先需要获取数据处理过程中产生的具体数据信息:

首先记录存储过程开始执行时间;

进行采集数据清洗及处理的步骤,保留处理过程中的中间表或临时表,并将最终处理结果保存至目标表,记录各级数据处理过程的实际执行SQL;

记录本次清洗完成后保存到目标表的采集数据量;

记录存储过程结束执行时间;

当处理过程出现异常时,记录存储过程执行异常信息。

监控数据处理过程中产生的数据保存在以下对应的日志表中:

记录存储过程的执行日志表;

记录实际执行的SQL脚本的SQL日志表;

记录数据处理完成后的数据量的变化日志表;

记录数据处理过程中的异常信息的异常信息表。

上述执行日志表通过具有记录存储过程执行情况的函数记录,该函数通过输入参数,将输入参数相关信息保存到执行日志表中,这里的输入参数包括:过程名称、执行标志、执行时间、存储过程生成的目标数据量,这里的执行标志是指开始或结束两种标志。

所述变化日志表通过记录数据处理完成后的数据量的函数实现,该函数通过输入参数,将输入参数相关信息保存至该变化日志表中,其输入参数包括:存储过程名称、目标表名称、目标表本次新增记录数、新增记录时间。

所述异常信息表通过记录存储过程执行异常情况的函数实现,该函数通过输入参数,将将输入参数相关信息保存到异常信息表中,其输入参数包括:存储过程名称、执行异常时间、执行异常代码、执行异常信息。

本发明的一种互联网采集数据的过程化处理方法和现有技术相比,具有以下有益效果:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东浪潮云服务信息科技有限公司,未经山东浪潮云服务信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201611044723.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top