[发明专利]一种数据处理方法和数据处理系统有效
申请号: | 202011527333.1 | 申请日: | 2020-12-22 |
公开(公告)号: | CN112597193B | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 吴晨;路明奎;方磊 | 申请(专利权)人: | 北京九章云极科技有限公司 |
主分类号: | G06F16/2453 | 分类号: | G06F16/2453 |
代理公司: | 北京银龙知识产权代理有限公司 11243 | 代理人: | 黄灿;刘倩兰 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 数据处理系统 | ||
本发明提供一种数据处理方法和数据处理系统,该方法包括:接收至少两个特征指标计算请求;根据各个所述特征指标计算请求的信息对所述至少两个特征指标计算请求进行合并,生成特征指标计算任务;执行所述特征指标计算任务。本发明实施例可以将多个特征指标计算请求合并进行计算,从而减少重复访问同一数据集以及降低I/O成本,提高数据处理速度以及服务的效率。
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据处理方法和数据处理系统。
背景技术
数据建模是数据处理系统的一个重要功能。而数据建模需要通过数据质量探查功能对数据的特点进行了解,以便选择合理的数据处理方法。数据质量探查功能通常是通过对数据集的特征指标进行计算而实现。在大数据时代,海量的数据通常是存储在分布系统中,由于数据分散存储且数据量大,现有技术中通常是基于批处理的方式对数据集的特征指标进行计算。批处理方式通常处理速度较慢,而数据建模过程往往是根据实时性的分析对模型进行调整,因此,如何快速了解大数据的样貌,以提高数据挖掘和分析的效率是亟待解决的问题。
发明内容
本发明实施例提供一种数据处理方法和数据处理系,可以加快特征指标的计算过程,实现快速地了解大数据的样貌,提高服务效率。
为解决上述技术问题,本发明提供一种数据处理方法,所述方法包括:
接收至少两个特征指标计算请求;
根据各个所述特征指标计算请求的信息对所述至少两个特征指标计算请求进行合并,得到合并后的目标特征指标计算请求;
根据所述合并后的目标特征指标计算请求,生成特征指标计算任务;
执行所述特征指标计算任务。
可选的,上述数据处理方法中,所述特征指标计算请求的信息包括待计算的特征指标信息和/或计算所述特征指标使用的数据集信息。
可选的,上述数据处理方法中,所述根据各个所述特征指标计算请求的信息对所述少两个特征指标计算请求进行合并,得到合并后的目标特征指标计算请求的步骤包括:
根据每个所述特征指标请求对应的所述数据集信息,确定使用同一数据集的第一特征指标计算请求集合;
将所述第一特征指标计算请求集合中的特征指标请求进行合并,得到合并后的目标特征指标计算请求。
可选的,上述数据处理方法中,所述将所述第一特征指标计算请求集合中的特征指标请求进行合并,得到合并后的目标特征指标计算请求的步骤包括:
获取所述第一特征指标计算请求集合中待计算的特征指标的业务类型;
确定所述特征指标的业务类型相同的第二特征指标计算请求集合;
将所述第二特征指标计算请求集合中的特征指标请求进行合并,得到合并后的目标特征指标计算请求。
可选的,上述数据处理方法中,所述业务类型包括以下至少一项:数据集基本信息、质量特征、分布情况和相关性分析。
可选的,上述数据处理方法中,所述执行所述特征指标计算任务的步骤包括:
确定所述特征指标计算任务中各个特征指标的关联关系;
根据所述关联关系获取各个所述特征指标的执行方式;
基于所述执行方式执行所述特征指标计算任务。
可选的,上述数据处理方法中,所述确定所述特征指标计算任务中各个特征指标的关联关系的步骤包括:
根据各个特征指标的计算逻辑确定所述各个特征指标共同的计算单元;
根据所述确定出的所述计算单元,确定所述各个特征指标的关联关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京九章云极科技有限公司,未经北京九章云极科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011527333.1/2.html,转载请声明来源钻瓜专利网。