[发明专利]数据处理方法、装置及设备、可读介质有效
申请号: | 201611238099.4 | 申请日: | 2016-12-28 |
公开(公告)号: | CN107038202B | 公开(公告)日: | 2020-05-05 |
发明(设计)人: | 徐凯;仝浩奇 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/25 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 王茹 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 设备 可读 介质 | ||
本申请提供一种数据处理方法、装置及设备、可读介质,所述方法包括:获取由至少两个数据序列组成的数据集,其中,每个数据序列的各项数据元素分别对应不同的属性,不同数据序列中存在同属性的数据元素;从组成所述数据集的数据序列中确定一组同属性的数据元素为遍历元素;遍历组成所述数据集的每个数据序列中除迭代元素外的剩余数据元素,将剩余数据元素相同的数据序列合并为一个数据序列,以使合并后的数据序列包括一项所述剩余数据元素、以及被合并的数据序列的迭代元素;确定合并后的数据序列与未经合并的数据序列为组成所述数据集的数据序列。实施本申请,可以减少数据集所占用的空间。
技术领域
本申请涉及计算机技术领域,尤其涉及数据处理方法、装置及设备、可读介质。
背景技术
在数据集处理过程中,经常会遇到多个数据序列组成的数据集,这种数据集中经常出现如下情况:各数据序列所含数据元素的数值、单位、类型、名称等属性不完全相同。例如:涉及贷款信息的数据集A,包括若干数据序列a、b、c、d等等,为了便于理解说明,示出a、b、c、d四个数据序列所含的数据元素:a={2016/1/1到2016/3/1;2档;3期;0到100元,费率1%},b={2016/1/1到2016/3/1;2档;3期;100到100000元,费率2%},c={2016/3/1到2016/5/1;3档;3期;0到100元,费率1%},d={2016/3/1到2016/5/1;3档;6期;0到100元,费率1%}。
其中,所示出的每个数据序列包括四项数据元素,四项数据元素的类型依次为:连续型(或范围型)、离散型(或枚举型)、离散型、连续嵌套型(或范围包含型),四项数据元素的名称依次为:时间、档位、期数、金额费率。
由以上所列举的数据集可知:多个数据序列组成的数据集中不同属性的数据元素难以直接合并,因此,此类数据集所含数据元素繁杂、占用空间大。
发明内容
有鉴于此,本申请提供一种数据处理方法、装置及设备、可读介质。
具体地,本申请是通过如下技术方案实现的:
根据本申请实施例的第一方面,提供一种数据处理方法,包括以下步骤:
获取由至少两个数据序列组成的数据集,其中,每个数据序列的各项数据元素分别对应不同的属性,不同数据序列中存在同属性的数据元素;
从组成所述数据集的数据序列中确定一组同属性的数据元素为遍历元素;
遍历组成所述数据集的每个数据序列中除遍历元素外的剩余数据元素,将剩余数据元素相同的数据序列合并为一个数据序列,以使合并后的数据序列包括一项所述剩余数据元素、以及被合并的数据序列的遍历元素;
确定合并后的数据序列与未经合并的数据序列为组成所述数据集的数据序列。
在一个实施例中,所述从组成所述数据集的数据序列中确定一组同属性的数据元素为遍历元素前,所述方法包括以下步骤:
如果任一数据序列的元素数目少于其他数据序列的元素数目,通过比较所述任一数据序列与其他数据序列,确定所述任一数据序列所缺少的数据元素的属性;
在所述任一数据序列内添加所确定的属性所对应预设数据元素。
在一个实施例中,所述从组成所述数据集的数据序列中确定一组同属性的数据元素为遍历元素前,所述方法包括以下步骤:
识别各数据序列中各数据元素的数据类型,所述数据类型包括离散型、连续型、以及连续嵌套型;
在各数据序列中,保持同类型的各数据元素之间的原有次序的同时,将离散型的数据元素整体调整到剩余类型的数据元素之前。
在一个实施例中,所述从组成所述数据集的数据序列中确定一组同属性的数据元素为遍历元素前,所述方法包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611238099.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:输入装置
- 下一篇:数据分析支援装置及数据分析支援方法