[发明专利]一种数据处理方法及装置有效
申请号: | 202010119532.2 | 申请日: | 2020-02-26 |
公开(公告)号: | CN111339217B | 公开(公告)日: | 2023-10-27 |
发明(设计)人: | 黄冠雄;罗捷锐 | 申请(专利权)人: | 慧择保险经纪有限公司 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F16/2457;G06F16/22 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 常忠良 |
地址: | 518000 广东省深圳市南山区粤*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 装置 | ||
本发明提供一种数据处理方法及装置,在获取到待处理数据集之后,根据预设分类属性,从待处理数据集中采集具有预设分类属性的待处理数据,从具有预设分类属性的待处理数据中,获取预设分类属性对应的数据属性值,以预设分类属性对应的数据属性值作为所属待处理数据的纬度,标记待处理数据,因为预设分类属性包括的数据属性是待处理数据包括的数据属性,所以每条待处理数据可由其数据属性值作为其纬度进行标记,若预设分类属性发生变更,可根据变更后的预设分类属性进行纬度替换,节省物理空间,并且一条待处理数据的纬度的数目明显小于待处理数据的数据索引,提高检索效率,从而提高数据的吞吐量。
技术领域
本发明涉及大数据技术领域,具体涉及一种数据处理方法及装置。
背景技术
在大数据时代数据量逐渐增加,且大数据时代下可通过数据库的方式存储数据,以能够从数据库中检索到所需数据。但是随着数据量的增大,数据库中存储的每条数据的数据属性增多,且数据库中不同来源的数据的数据属性值不同,导致现有在数据库中建立数据索引以进行数据检索的方式难以满足数据检索的要求。
例如,用于存储订单数据的数据库,不同订单数据对应不同类型的产品,且不同类型的产品来源不同,导致数据库中不同订单数据的数据属性值不同,那么针对不同订单数据则需要构建不同的数据索引,如针对数据库中A产品的订单数据根据a1和a2两个数据属性值建立数据索引以进行检索,B产品的订单数据根据b1和b2两个数据属性值建立数据索引以进行检索。
因数据库中的数据量不断增加以及数据检索的要求也会不断变更,导致数据库中数据索引会无序增长,从而用于存储数据索引的索引文件会占用物理空间,且过多的数据索引会使得数据的吞吐量降低。
发明内容
有鉴于此,本发明实施例提供一种数据处理方及装置,技术方案如下:
一方面,本发明提供一种数据处理方法,包括:
获取待处理数据集,所述待处理数据集包括至少两条待处理数据,所述至少两条待处理数据包括至少一个数据属性;
根据预设分类属性,从所述待处理数据集中采集具有所述预设分类属性的待处理数据,所述预设分类属性包括至少一个数据属性,且所述预设分类属性包括的数据属性是至少一条待处理数据包括的数据属性;
从具有所述预设分类属性的待处理数据中,获取所述预设分类属性对应的数据属性值;
以所述预设分类属性对应的数据属性值作为所属待处理数据的纬度,标记所述预设分类属性对应的数据属性值所属的待处理数据。
可选的,所述方法还包括:根据预设筛选属性对应的数据属性值,对所述待处理数据进行筛选,得到具有所述预设筛选属性对应的数据属性值的待处理数据。
可选的,所述方法还包括:
确定具有所述预设筛选属性对应的数据属性值的待处理数据是否满足预设计算规则;
若具有所述预设筛选属性对应的数据属性值的待处理数据满足预设计算规则,根据所述预设计算规则对应的计算算法进行计算。
可选的,所述方法还包括:
获取检索数据;
将所述检索数据与所述待处理数据的纬度进行比对,确定纬度与所述检索数据匹配的所述待处理数据;
输出纬度与所述检索数据匹配的所述待处理数据。
可选的,所述方法还包括:
根据所述待处理数据的数据属性以及数据属性值,对所述待处理数据的纬度进行校验;
若所述待处理数据的纬度与所述待处理数据的数据属性以及数据属性值不匹配,重新对所述待处理数据进行标记。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于慧择保险经纪有限公司,未经慧择保险经纪有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010119532.2/2.html,转载请声明来源钻瓜专利网。