[发明专利]维度清洗方法、装置、计算机设备及存储介质在审
申请号: | 202011531916.1 | 申请日: | 2020-12-22 |
公开(公告)号: | CN112632049A | 公开(公告)日: | 2021-04-09 |
发明(设计)人: | 徐兵 | 申请(专利权)人: | 平安普惠企业管理有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/28 |
代理公司: | 深圳市世联合知识产权代理有限公司 44385 | 代理人: | 汪琳琳 |
地址: | 518000 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 维度 清洗 方法 装置 计算机 设备 存储 介质 | ||
本申请实施例属于大数据领域,涉及一种维度清洗方法,包括获取待清洗字段;读取所述待清洗字段的字段属性;根据所述字段属性确定所述待清洗字段所在的维度等高树以及对应的清洗策略,其中,所述清洗策略包括至少一个层级的归约策略,所述归约策略包括正则匹配归约、等值映射归约和DSL判断归约;通过所述维度等高树和所述清洗策略对所述待清洗字段进行维度清洗,得到维度清洗结果。本申请还提供一种维度清洗装置、计算机设备及存储介质。此外,本申请还涉及区块链技术,维度清洗结果可存储于区块链中。本申请提高了维度清洗的准确性。
技术领域
本申请涉及大数据技术领域,尤其涉及一种维度清洗方法、装置、计算机设备及存储介质。
背景技术
随着大数据技术的发展,数据集市的使用也越来越广泛。数据集市可以满足特定部门或用户的需求,按照多维的方式进行存储,包括定义维度、需要计算的指标、维度的层次等,生成面向决策分析需求的数据立方体。数据集市中的数据可以来自于数据仓库,数据仓库向数据集市提供的数据需要经过数据建模,而字段的维度清洗又是数据建模中非常关键的一环。
字段的维度清洗是指,输入业务系统某一维度下的字段,归约得到数据分析场景中包含多个层级的规范化维度信息。传统的维度清洗技术通常使用SQL语句,操作复杂,清洗效率较低,且由于业务场景的多样性,维度种类繁多,容易引入维度归约错误的清洗代码,使得维度清洗的准确性较低。
发明内容
本申请实施例的目的在于提出一种维度清洗方法、装置、计算机设备及存储介质,以解决维度清洗准确性较低的问题。
为了解决上述技术问题,本申请实施例提供一种维度清洗方法,采用了如下所述的技术方案:
获取待清洗字段;
读取所述待清洗字段的字段属性;
根据所述字段属性确定所述待清洗字段所在的维度等高树以及对应的清洗策略,其中,所述清洗策略包括至少一个层级的归约策略,所述归约策略包括正则匹配归约、等值映射归约和DSL判断归约;
通过所述维度等高树和所述清洗策略对所述待清洗字段进行维度清洗,得到维度清洗结果。
为了解决上述技术问题,本申请实施例还提供一种维度清洗装置,采用了如下所述的技术方案:
字段获取模块,用于获取待清洗字段;
属性读取模块,用于读取所述待清洗字段的字段属性;
确定模块,用于根据所述字段属性确定所述待清洗字段所在的维度等高树以及对应的清洗策略,其中,所述清洗策略包括至少一个层级的归约策略,所述归约策略包括正则匹配归约、等值映射归约和DSL判断归约;
字段清洗模块,用于通过所述维度等高树和所述清洗策略对所述待清洗字段进行维度清洗,得到维度清洗结果。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:
获取待清洗字段;
读取所述待清洗字段的字段属性;
根据所述字段属性确定所述待清洗字段所在的维度等高树以及对应的清洗策略,其中,所述清洗策略包括至少一个层级的归约策略,所述归约策略包括正则匹配归约、等值映射归约和DSL判断归约;
通过所述维度等高树和所述清洗策略对所述待清洗字段进行维度清洗,得到维度清洗结果。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
获取待清洗字段;
读取所述待清洗字段的字段属性;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安普惠企业管理有限公司,未经平安普惠企业管理有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011531916.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种油厂用精炼设备
- 下一篇:一种硫化砷渣的快速烘干方法