[发明专利]数据整理的系统和方法有效
申请号: | 201510993830.3 | 申请日: | 2015-12-25 |
公开(公告)号: | CN105740311B | 公开(公告)日: | 2020-08-11 |
发明(设计)人: | M.楚穆拉;I.伊万诺夫;V.库马 | 申请(专利权)人: | 商业对象软件有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/25;G06F16/248 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 邵亚丽;曹瑜 |
地址: | 爱尔兰*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 整理 系统 方法 | ||
在一些示例性实施例中,可以使图形用户界面(GUI)在用户的计算设备上显示。GUI可以被配置为使得用户能够提交数据集的标识和至少一个配置参数。可以经由计算设备上的GUI接收数据集的标识、至少一个配置参数和至少一个整理参数。可以基于至少一个配置参数来配置采样算法。可以使用所配置的采样算法从数据集生成数据的样本。可以基于至少一个整理参数对数据的样本执行至少一个数据整理操作。
技术领域
本申请一般涉及数据处理的技术领域,并且在各种实施例中,涉及数据整理(wrangling)的系统和方法。
背景技术
数据整理是将数据从一种原始形式转换或映射成另一种格式从而数据容易用于分析的过程,诸如将非结构化数据清理(cleaning)成列格式。例如,在数据整理期间,用户可能希望将日期时间值分割成两个单独的列,以特定的方式格式化日期,或者甚至删除值的时间部分以节省空间。数据整理的另一例子是将日志文件数据与用户元数据合并,从而可以理解正在执行动作的用户的背景。
对于在千万亿字节(petabytes)规模的大数据集,存在的问题是,在考虑时间和质量之间的权衡的情况下如何创建数据集的智能代表性示例。重要的是创建作为真正数据集的子集的样本数据集,因为实际上不可能在单个台式计算机上存储整个数据集。自助服务用户理想地不希望在开始创建整理操作之前等待数天来产生样本数据集。重要的是获得高质量的代表性的样本数据集以对其执行操作,以使得用户不会在调度作业的多次迭代方面浪费时间。例如,如果用户仅对代表来自一个月的第一天的日志文件的目录中的第一文件采样并且该日志文件不包含任何记录的错误,则这可能在创建整理操作时引起逻辑错误。记录的错误值的格式将是意想不到的,并且导致将生成错误的整理输出。
还存在的问题是,如何有效地向用户传达执行整理操作和可视化是对采样数据,而不是对完整的数据集,执行的。例如,在以下两种情况下数据不包括整个数据集时,对于启动与他或她的同事共享不基于采样数据的图表的数据分析、或者对于数据科学家开始实施预测算法,可能是有害的。然而,用户可能想要使用相同的分析工具来获得可视化看起来与真实数据一样的感觉。
发明内容
根据本公开的一方面,提供了一种系统,包括:配置模块,能够在至少一个处理器上执行,被配置为:使图形用户界面(GUI)在用户的计算设备上显示,GUI被配置为使得用户能够提交数据集的标识、至少一个配置参数和至少一个整理参数;经由计算设备上的GUI接收数据集的标识、所述至少一个配置参数和所述至少一个整理参数;基于所述至少一个配置参数来配置采样算法;以及采样模块,被配置为使用所配置的采样算法从数据集生成数据的样本。
根据本公开的另一方面,提供了一种计算机实施的方法,包括:使图形用户界面(GUI)在用户的计算设备上显示,GUI被配置为使得用户能够提交数据集的标识、至少一个配置参数和至少一个整理参数;经由计算设备上的GUI接收数据集的标识、所述至少一个配置参数和所述至少一个整理参数;基于所述至少一个配置参数,由具有存储器和至少一个处理器的机器配置采样算法;以及使用所配置的采样算法从数据集生成数据的样本。
根据本公开的另一方面,提供了一种有形地具体实现指令集的非临时性机器可读存储介质,当所述指令集被至少一个处理器执行时使所述至少一个处理器执行操作,所述操作包括:使图形用户界面(GUI)在用户的计算设备上显示,GUI被配置为使得用户能够提交数据集的标识、至少一个配置参数和至少一个整理参数;经由计算设备上的GUI接收数据集的标识、所述至少一个配置参数和所述至少一个整理参数;基于所述至少一个配置参数来配置采样算法;以及使用所配置的采样算法从数据集生成数据的样本。
附图说明
本公开的一些示例性实施例通过举例的方式示出,而不限于附图中的图,在附图中相同的参考标记指示相同的元件,而且在附图中:
图1是示出根据一些示例性实施例的客户端-服务器系统的网络图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于商业对象软件有限公司,未经商业对象软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510993830.3/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置