[发明专利]一种信息处理方法和电子设备在审
申请号: | 201910847788.2 | 申请日: | 2019-09-09 |
公开(公告)号: | CN110569284A | 公开(公告)日: | 2019-12-13 |
发明(设计)人: | 李志刚;马鹏程;王晓勇 | 申请(专利权)人: | 联想(北京)有限公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458 |
代理公司: | 11227 北京集佳知识产权代理有限公司 | 代理人: | 赵焕 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 目标采样数据 数据库 采样参数 采样 计算资源 随机分配 信息处理 耗时 扫描 占用 申请 | ||
本申请提供了一种信息处理方法,包括:获取采样参数;依据所述采样参数计算得到目标采样数据数量;依据所述目标采样数据数量,从数据库中选择至少一个目标桶,所述数据库中包含至少两个桶,每个桶中随机分配有经过随机处理的数据,所述目标桶数量小于所述数据库中桶的数;从所述至少一个目标桶中采样所述数量的目标采样数据。本方案中,通过对数据库中大量桶中的部分进行采样,无需扫描整个表的所有分桶,计算资源占用少,耗时短。
技术领域
本申请涉及电子设备领域,更具体的说,是涉及一种信息处理方法和电子设备。
背景技术
LeapOcean是一种面向分析的高性能大数据管理平台。基于这一平台,企业可以快速构建以综合数据分析为目标的企业大数据仓库。提供汇聚高价值数据的接入与统一存储管理,基于海量数据的多并发秒级响应实时分析计算,多模式主题建模、数据探索、关键数据应用开发与发布,支持企业各类数据用户快速发掘商机、有效防范风险、高效科学决策。
LeapOcean产品开发中,需要对系统内管理的每个数据表进行统计分析,统计分析中包括对表中每个数值列中位数统计,但数据量比较大时中位数的获取非常耗费计算资源,比如对9亿条数据的单一数值列获取的CPU(central processing unit,中央处理器)总耗时约为数小时。
现有技术中,支持通过TABLESAMPLE关键字,使用采样方式来查询数据部分数据,但以百分比或固定数量方式采样时,需要扫描整个表的所有分桶,造成大量计算资源的占用,同时导致采样耗时很长。
发明内容
有鉴于此,本申请提供了一种信息处理方法,解决现有技术中采样时需要扫描整个表的所有分桶,导致占用大量计算资源以及耗时长的问题。
为实现上述目的,本申请提供如下技术方案:
一种信息处理方法,包括:
获取采样参数;
依据所述采样参数计算得到目标采样数据数量;
依据所述目标采样数据数量,从数据库中选择至少一个目标桶,所述数据库中包含至少两个桶,每个桶中随机分配有经过随机处理的数据,所述目标桶数量小于所述数据库中桶的数量;
从所述至少一个目标桶中采样所述数量的目标采样数据。
优选的,上述的方法,所述依据所述目标采样数据数量,从数据库中选择至少一个目标桶,包括:
获取预设的起始目标桶信息;
以所述起始目标桶信息,从所述数据库中选择第一目标桶作为起始,按照预设的选择规则,从所述数据库中选择至少一个目标桶。
优选的,上述的方法,按照预设的选择规则,从所述数据库中选择至少一个目标桶,包括以下任意一种:
以所述第一目标桶为起始,依次从所述数据库中选择至少一个目标桶;
或
以所述第一目标桶为起始,从所述数据库中随机选择至少一个目标桶。
优选的,上述的方法,所述依据所述目标采样数据数量,从数据库中选择至少一个目标桶,包括:
获取预设的阈值,所述阈值表征能够从所述桶中采样数据的最大量;
依据目标采样数据数量以及所述阈值,计算得到目标桶个数;
从所述数据库中选择所述个数的目标桶。
优选的,上述的方法,从目标桶中采样数据,包括:
按照所述预设的阈值,从所述目标桶中采样数据。
一种电子设备,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于联想(北京)有限公司,未经联想(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910847788.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种油位曲线数据处理方法及装置
- 下一篇:一种计算土壤元素背景值的方法和装置