[发明专利]一种数据处理方法及装置在审

申请号：	201910297319.8	申请日：	2019-04-15
公开（公告）号：	CN111831629A	公开（公告）日：	2020-10-27
发明（设计）人：	李小健;李海军	申请（专利权）人：	阿里巴巴集团控股有限公司
主分类号：	G06F16/215	分类号：	G06F16/215;G06F16/22
代理公司：	北京鼎佳达知识产权代理事务所(普通合伙) 11348	代理人：	王伟锋;刘铁生
地址：	英属开曼群岛大开***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种数据处理方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种数据处理方法及装置，涉及计算机技术领域，主要目的在于创建智能化的数据清洗流程，降低人工参与度，提高数据清洗的效率。本发明主要的技术方案为：根据待处理数据表的属性字段确定数据清洗规则，所述数据清洗规则至少包括具有同属性字段的多个待处理数据表的清洗优先级；根据融合数据表的主键从所述多个待处理数据表中筛选出同主键数据表，所述融合数据表用于记录所述同主键数据表中经过清洗的数据；将所述清洗优先级高的同主键数据表中的数据添加至所述融合数据表，所述数据对应于同主键数据表中的同属性字段。本发明主要用于清洗多来源数据表中的数据。

技术领域

本发明涉及计算机技术领域，尤其涉及一种数据处理方法及装置。

背景技术

数据已经渗透到当今每一个行业和业务职能领域，成为重要的生产因素，大数据时代已经来临。大数据的爆炸式增长在大容量、多样性和高增速方面，考验着现代企业的数据处理和分析能力，同时，也为企业带来了获取更丰富、更深入和更准确地洞察市场行为的大量机会。当前，最重要的现实是对大数据进行处理分析，只有通过处理分析才能获取很多智能的、深入的、有价值的信息。

相比于传统的数据处理，目前常规的大数据处理工具有两类：传统的ETL(Extract-Transform-Load，抽取、转换、加载)工具和基于Hadoop(Hadoop DistributedFile System，分布式文件系统)的大数据采集工具。

目前，用户对于大数据处理的融合集成度要求越来越高。然而目前常规的大数据处理工具对于大数据这种多源、异构、海量的数据，在处理方面存在欠缺，数据处理过程人工参与度高，数据处理不精细、效率低，尤其是对于不同来源的同属性数据，在进行清洗时往往需要人工确认数据的有效性，导致在对海量数据进行清洗时成本升高，清洗数据的利用价值降低。

发明内容

鉴于上述问题，本发明提出了一种数据处理方法及装置，主要目的在于创建智能化的数据清洗流程，降低人工参与度，提高数据清洗的效率。

为达到上述目的，本发明主要提供如下技术方案：

一方面，本发明提供一种数据处理方法，具体包括：

根据待处理数据表的属性字段确定数据清洗规则，所述数据清洗规则至少包括具有同属性字段的多个待处理数据表的清洗优先级；

根据融合数据表的主键从所述多个待处理数据表中筛选出同主键数据表，所述融合数据表用于记录所述同主键数据表中经过清洗的数据；

将所述清洗优先级高的同主键数据表中的数据添加至所述融合数据表，所述数据对应于同主键数据表中的同属性字段。

另一方面，本发明提供一种数据处理装置，具体包括：

确定单元，用于根据待处理数据表的属性字段确定数据融合规则，所述数据融合规则至少包括具有同属性字段的多个待处理数据表的清洗优先级；

表筛选单元，用于根据融合数据表的主键从所述多个待处理数据表中筛选出同主键数据表，所述融合数据表用于记录所述同主键数据表中经过清洗的数据；

数据清洗单元，用于将所述表筛选单元选出的清洗优先级高的同主键数据表中的数据添加至所述融合数据表，所述数据对应于同主键数据表中的属性字段。

另一方面，本发明提供一种存储介质，所述存储介质用于存储计算机程序，其中，所述计算机程序运行时控制所述存储介质所在设备执行上述的数据处理方法。