[发明专利]数据处理方法及装置、电子设备、存储介质有效

专利信息
申请号: 201811338804.7 申请日: 2018-11-12
公开(公告)号: CN109524070B 公开(公告)日: 2021-03-23
发明(设计)人: 杜飞 申请(专利权)人: 北京懿医云科技有限公司
主分类号: G16H10/60 分类号: G16H10/60;G16H50/70;G06F16/28;G06F16/215
代理公司: 北京律智知识产权代理有限公司 11438 代理人: 袁礼君;阚梓瑄
地址: 100195 北京市海淀区*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 数据处理 方法 装置 电子设备 存储 介质
【说明书】:

本公开是关于一种数据处理方法及装置、电子设备、存储介质,涉及大数据技术领域,该方法包括:对原始数据集进行简化处理得到目标数据集;通过预设规则确定所述目标数据集中的数据对应的类别标签,并对所述类别标签进行粒度划分得到多个粒度模型;通过对所述粒度模型进行统计分析,以根据统计分析结果进行数据质控。本公开可以提高类别标签确定效率和数据质控效率。

技术领域

本公开涉及大数据技术领域,具体而言,涉及一种数据处理方法、数据处理装置、电子设备以及计算机可读存储介质。

背景技术

随着大数据技术的广泛应用,对数据质量的要求也越来越高。虽然通过数据清洗、数据归一、结构化、数据补全等技术可以在一定程度上弥补原始数据的不足,但是例如数据不自洽等关键的数据质量问题确很难得到修正。

为了解决上述问题,可以通过标签技术对数据做标签化说明,让用户可以知道数据问题,进而根据需求来决定在后续数据使用环节是否使用数据。比如病人籍贯数据不自洽问题,如果数据上做了数据不自洽的标签,用户看到此标签即可根据其业务场景决定是否使用该条数据。相关技术中基本都是先通过map-reduce或者SQL来对数据进行各种数据问题规则验证。最后再把数据抽取出来,添加标签后再写入。

在上述方式中,由于map-reduce技术会将中间结果写入磁盘,每次迭代都包括数据写入磁盘、数据磁盘读取步骤,步骤较繁琐,因此严重减慢确定数据标签的速度;除此之外,由于每条数据均对应一个类别标签,而每个用户可能包括多条数据,进而使得每个用户包括多个类别标签,在通过类别标签确定每个用户的数据是否可用时,需要多次统计标签分布,从而判定数据质量,该过程中可能造成遗漏标签等误操作,影响对数据进行分析统计。

需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种数据处理方法及装置、电子设备、存储介质,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的数据标签确定速度慢的问题。

本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。

根据本公开的一个方面,提供一种数据处理方法,包括:对原始数据集进行简化处理得到目标数据集;通过预设规则确定所述目标数据集中的数据对应的类别标签,并对所述类别标签进行粒度划分得到多个粒度模型;通过对所述粒度模型进行统计分析,以根据统计分析结果进行数据质控。

在本公开的一种示例性实施例中,对原始数据集进行简化处理得到目标数据集包括:对所述原始数据集进行拆分,得到二维结构的所述目标数据集。

在本公开的一种示例性实施例中,通过预设规则确定所述目标数据集中的数据对应的类别标签包括:通过DSL语言确定所述目标数据集中每一条数据对应的所述类别标签。

在本公开的一种示例性实施例中,对所述类别标签进行粒度划分得到多个粒度模型包括:按照预设粒度对所述类别标签进行粒度划分,得到与所述预设粒度对应的粒度模型。

在本公开的一种示例性实施例中,所述粒度模型包括第一粒度模型以及第二粒度模型,且所述第一粒度模型包括至少一个所述第二粒度模型。

在本公开的一种示例性实施例中,所述第一粒度模型包括用户粒度,所述第二粒度模型包括就诊粒度、诊断粒度、检验粒度、检查粒度中的至少一种。

在本公开的一种示例性实施例中,所述方法还包括:通过所述第一粒度模型或所述第二粒度模型对应的预设标识,对所述目标数据集中的目标数据的类别标签进行同步查询或异步查询。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京懿医云科技有限公司,未经北京懿医云科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811338804.7/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top