[发明专利]数据整理的系统和方法有效

专利信息
申请号: 201510993830.3 申请日: 2015-12-25
公开(公告)号: CN105740311B 公开(公告)日: 2020-08-11
发明(设计)人: M.楚穆拉;I.伊万诺夫;V.库马 申请(专利权)人: 商业对象软件有限公司
主分类号: G06F16/215 分类号: G06F16/215;G06F16/25;G06F16/248
代理公司: 北京市柳沈律师事务所 11105 代理人: 邵亚丽;曹瑜
地址: 爱尔兰*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 数据 整理 系统 方法
【说明书】:

在一些示例性实施例中,可以使图形用户界面(GUI)在用户的计算设备上显示。GUI可以被配置为使得用户能够提交数据集的标识和至少一个配置参数。可以经由计算设备上的GUI接收数据集的标识、至少一个配置参数和至少一个整理参数。可以基于至少一个配置参数来配置采样算法。可以使用所配置的采样算法从数据集生成数据的样本。可以基于至少一个整理参数对数据的样本执行至少一个数据整理操作。

技术领域

本申请一般涉及数据处理的技术领域,并且在各种实施例中,涉及数据整理(wrangling)的系统和方法。

背景技术

数据整理是将数据从一种原始形式转换或映射成另一种格式从而数据容易用于分析的过程,诸如将非结构化数据清理(cleaning)成列格式。例如,在数据整理期间,用户可能希望将日期时间值分割成两个单独的列,以特定的方式格式化日期,或者甚至删除值的时间部分以节省空间。数据整理的另一例子是将日志文件数据与用户元数据合并,从而可以理解正在执行动作的用户的背景。

对于在千万亿字节(petabytes)规模的大数据集,存在的问题是,在考虑时间和质量之间的权衡的情况下如何创建数据集的智能代表性示例。重要的是创建作为真正数据集的子集的样本数据集,因为实际上不可能在单个台式计算机上存储整个数据集。自助服务用户理想地不希望在开始创建整理操作之前等待数天来产生样本数据集。重要的是获得高质量的代表性的样本数据集以对其执行操作,以使得用户不会在调度作业的多次迭代方面浪费时间。例如,如果用户仅对代表来自一个月的第一天的日志文件的目录中的第一文件采样并且该日志文件不包含任何记录的错误,则这可能在创建整理操作时引起逻辑错误。记录的错误值的格式将是意想不到的,并且导致将生成错误的整理输出。

还存在的问题是,如何有效地向用户传达执行整理操作和可视化是对采样数据,而不是对完整的数据集,执行的。例如,在以下两种情况下数据不包括整个数据集时,对于启动与他或她的同事共享不基于采样数据的图表的数据分析、或者对于数据科学家开始实施预测算法,可能是有害的。然而,用户可能想要使用相同的分析工具来获得可视化看起来与真实数据一样的感觉。

发明内容

根据本公开的一方面,提供了一种系统,包括:配置模块,能够在至少一个处理器上执行,被配置为:使图形用户界面(GUI)在用户的计算设备上显示,GUI被配置为使得用户能够提交数据集的标识、至少一个配置参数和至少一个整理参数;经由计算设备上的GUI接收数据集的标识、所述至少一个配置参数和所述至少一个整理参数;基于所述至少一个配置参数来配置采样算法;以及采样模块,被配置为使用所配置的采样算法从数据集生成数据的样本。

根据本公开的另一方面,提供了一种计算机实施的方法,包括:使图形用户界面(GUI)在用户的计算设备上显示,GUI被配置为使得用户能够提交数据集的标识、至少一个配置参数和至少一个整理参数;经由计算设备上的GUI接收数据集的标识、所述至少一个配置参数和所述至少一个整理参数;基于所述至少一个配置参数,由具有存储器和至少一个处理器的机器配置采样算法;以及使用所配置的采样算法从数据集生成数据的样本。

根据本公开的另一方面,提供了一种有形地具体实现指令集的非临时性机器可读存储介质,当所述指令集被至少一个处理器执行时使所述至少一个处理器执行操作,所述操作包括:使图形用户界面(GUI)在用户的计算设备上显示,GUI被配置为使得用户能够提交数据集的标识、至少一个配置参数和至少一个整理参数;经由计算设备上的GUI接收数据集的标识、所述至少一个配置参数和所述至少一个整理参数;基于所述至少一个配置参数来配置采样算法;以及使用所配置的采样算法从数据集生成数据的样本。

附图说明

本公开的一些示例性实施例通过举例的方式示出,而不限于附图中的图,在附图中相同的参考标记指示相同的元件,而且在附图中:

图1是示出根据一些示例性实施例的客户端-服务器系统的网络图;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于商业对象软件有限公司,未经商业对象软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510993830.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top