[发明专利]一种数据清洗加工方法及系统在审
申请号: | 201811532167.7 | 申请日: | 2018-12-14 |
公开(公告)号: | CN109684313A | 公开(公告)日: | 2019-04-26 |
发明(设计)人: | 王乐;张辉 | 申请(专利权)人: | 浪潮软件集团有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 姜明 |
地址: | 250100 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据清洗 加工 加工方法及系统 清洗 图谱 数据处理技术 加工结果 全自动化 数据模型 原始数据 运行效能 复用 标准化 | ||
本发明公开了一种数据清洗加工方法及系统,属于数据处理技术领域。本发明的数据清洗加工方法,该方法首先建立数据模型与数据清洗加工规则之间的关系图谱,利用所述关系图谱完成原始数据到标准化的清洗加工结果数据全自动化处理,完成数据清洗加工。该发明的数据清洗加工方法能够提高清洗加工规则的运行效能,更大程度的提升清洗加工规则的复用程度,具有很好的推广应用价值。
技术领域
本发明涉及数据处理技术领域,具体提供一种数据清洗加工方法及系统。
背景技术
随着社会的不断进步,社会经济有了飞速的发展,科学技术也取得了突飞猛进的发展。科学技术的进步带来的是社会领域各个行业的发展。行业的发展带势必会带来每个行业的数据的产生,而行业的飞速发展也会带来越来越多的数据。而产生数据之后就需要对数据进行处理,以便在后续的工作过程中更好的利用数据,数据的处理方法成为重中之重。
在海量数据加工方法出现之前,大量数据处理基本上是分散在各自的源业务处理系统中进行,此时业务系统既承担着日常业务处理本身的压力同时还要承担海量数据的加工、查询、分析等大量工作。
特别是近年来,随着信息化技术的迅猛发展,收集、存储、处理和分析的数据量越来越大。面向海量数据的处理越来越火,区别于传统的数据结构化特点,大数据有三个特点,包括海量性、分布性和异构性。其海量性主要是指数据规模的巨大并且增长速度持续增加;其分布性主要体现在巨大的数据量不能在一台机器上存储计算和分析;其异构性主要体现在数据类型和数据来源的多样化。利用传统的面向结构化数据的集中式处理方式,很难解决大数据带来的问题,针对这三个特性,面向大数据的集成和清洗变得尤为重要。
现有的数据清洗和加工,一般实现的方式是清洗规则的预置开发,实现过程的流程化预定义,形成固定表结构之间的清洗定义。该中方法不能实现清洗加工规则的复用,在新的数据格式需要清洗时,清洗加工规则无法复用,需要重新开发与配置,从多来源的各类格式原始数据到标准化的清洗结果数据,全过程自动化程度不高。
发明内容
本发明的技术任务是针对上述存在的问题,提供一种能够提高清洗加工规则的运行效能,更大程度的提升清洗加工规则的复用程度的数据清洗加工方法。
本发明进一步的技术任务是提供一种用于构建数据清洗加工的关系图谱的系统。
为实现上述目的,本发明提供了如下技术方案:
一种数据清洗加工方法,该方法首先建立数据模型与数据清洗加工规则之间的关系图谱,利用所述关系图谱完成原始数据到标准化的清洗加工结果数据全自动化处理,完成数据清洗加工。
该数据清洗加工方法以数据模型与清洗加工规则之间的关系图谱为核心,能够解决多来源的各类格式原始数据的标准化的清洗加工结果数据的全过程自动化处理,能够提高清洗加工规则的运行效能,更大程度的提升清洗加工规则的复用程度。
作为优选,所述方法具体包括以下步骤:
S1:多来源数据的实体物理模型的定义,以此来完成数据库的自动建表及自动化更新数据解析入库;
S2:根据预设的唯一性、完整性及合法性完成清洗加工规则的在线定义;
S3:数据实体逻辑模型与实体物理模型匹配映射,构建关系图谱;
S4:上传需要清洗加工的数据至关系图谱,自动解析数据入库,并自动识别数据实体物理模型结构,利用关系图谱中的数据实体逻辑模型与实体物理模型的匹配映射关系,选择对应的数据清洗加工规则对数据进行清洗加工后,将数据存储到目标数据库中。
步骤S1中,所述多来源数据包括XML格式、EXCEL格式、数据库源文件格式等的数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮软件集团有限公司,未经浪潮软件集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811532167.7/2.html,转载请声明来源钻瓜专利网。