[发明专利]一种数据清洗加工方法及系统在审
申请号: | 201811532167.7 | 申请日: | 2018-12-14 |
公开(公告)号: | CN109684313A | 公开(公告)日: | 2019-04-26 |
发明(设计)人: | 王乐;张辉 | 申请(专利权)人: | 浪潮软件集团有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 姜明 |
地址: | 250100 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据清洗 加工 加工方法及系统 清洗 图谱 数据处理技术 加工结果 全自动化 数据模型 原始数据 运行效能 复用 标准化 | ||
1.一种数据清洗加工方法,其特征在于:该方法首先建立数据模型与数据清洗加工规则之间的关系图谱,利用所述关系图谱完成原始数据到标准化的清洗加工结果数据全自动化处理,完成数据清洗加工。
2.根据权利要求1所述的数据清洗加工方法,其特征在于:所述方法具体包括以下步骤:
S1:多来源数据的实体物理模型的定义,以此来完成数据库的自动建表及自动化更新数据解析入库;
S2:根据预设的唯一性、完整性及合法性完成清洗加工规则的在线定义;
S3:数据实体逻辑模型与实体物理模型匹配映射,构建关系图谱;
S4:上传需要清洗加工的数据至关系图谱,自动解析数据入库,并自动识别数据实体物理模型结构,利用关系图谱中的数据实体逻辑模型与实体物理模型的匹配映射关系,选择对应的数据清洗加工规则对数据进行清洗加工后,将数据存储到目标数据库中。
3.根据权利要求2所述的数据清洗加工方法,其特征在于:步骤S2中,根据预设的唯一性、完整性及合法性完成清洗加工规则的在线定义中,主要包括列处理规则、行处理规则和数据查重规则,其中,列处理规则包括预制字典、字段类型、时间规则;行处理规则包括筛选、过滤处理;数据查重规则包括通过选取的查重字段,判断数据是否重复。
4.根据权利要求3所述的数据清洗加工方法,其特征在于:所述数据查重规则中通过聚类方法判断数据是否重复。
5.根据权利要求4所述的数据清洗加工方法,其特征在于:步骤S3中,数据实体逻辑模型与实体物理模型匹配映射中,需要对数据实体逻辑模型进行定义,包括实体定义、属性定义、关系定义及索引定义,其中,实体与属性定义用于数据实体基本信息的定义;关系及索引定义用于实现数据实体间关系图谱的构建。
6.根据权利要求5所述的数据清洗加工方法,其特征在于:所述实体定义是对数据实体物理模型的抽象定义及详细信息的管理与维护;属性定义是对数据实体物理模型的属性定义与维护;关系定义是对数据实体间关系的定义与维护;索引定义是对实体索引的定义与维护。
7.根据权利要求5所述的数据清洗加工方法,其特征在于:所述属性定义包括数据类型、长度、约束、清洗规则的定义与维护;所述索引定义包括图谱索引和顶点中心索引,用于快速匹配与定位数据来源信息项。
8.一种数据清洗加工系统,其特征在于:该系统包括以下模块:
实体物理模型的定义模块,用于定义实体物理模型,以此来完成数据库的自动建表及自动化更新数据解析入库;
清洗加工规则的在线定义模块:用于根据预设的唯一性、完整性及合法性完成清洗加工规则的在线定义;
关系图谱构建模块:根据数据实体逻辑模型与实体物理模型匹配映射,构建关系图谱;
有效数据存储模块:用于存储清洗加工后的数据。
9.根据权利要求8所述的数据清洗加工系统,其特征在于:清洗加工规则的在线定义模块主要对列处理规则、行处理规则和数据查重规则进行定义,其中,列处理规则包括预制字典、字段类型、时间规则;行处理规则包括筛选、过滤处理;数据查重规则包括通过选取的查重字段,判断数据是否重复。
10.根据权利要求8或9所述的数据清洗加工系统,其特征在于:所述关系图谱构建模块需要对数据实体逻辑模型进行定义,包括实体定义、属性定义、关系定义及索引定义,其中,实体与属性定义用于数据实体基本信息的定义;关系及索引定义用于实现数据实体间关系图谱的构建。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮软件集团有限公司,未经浪潮软件集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811532167.7/1.html,转载请声明来源钻瓜专利网。