[发明专利]数据运行优化处理方法和装置在审
申请号: | 202111086782.1 | 申请日: | 2021-09-16 |
公开(公告)号: | CN113806047A | 公开(公告)日: | 2021-12-17 |
发明(设计)人: | 许贝贝;宋英雷;王晶晶 | 申请(专利权)人: | 北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F9/48 | 分类号: | G06F9/48;G06F9/50;G06F9/38 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 张效荣;冯培培 |
地址: | 100176 北京市北京经济技术*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 运行 优化 处理 方法 装置 | ||
本发明公开了一种数据运行优化处理方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:获取待检测数据;基于异常值检测算法确定所述待检测数据中的热点数据;根据所述热点数据的指标计数值确定所述热点数据的分桶个数;根据所述热点数据的分桶个数和任务运行时段的可用资源情况对所述热点数据进行任务运行规划。通过以上步骤,能够很好地解决现有处理热点导致数据运行中所存在的规划滞后、无法兼顾时效与网站不稳定和浪费运算资源的问题,提高用户体验。
技术领域
本发明涉及计算机技术领域,尤其涉及一种数据运行优化处理方法和装置。
背景技术
随着各大网络平台的普及,各类爆品、促销活动等容易导致曝光、浏览、点击、加购、订单等多个环节数据出现热点数据,从而致使在后台运行的任务加工过程中对涉及到热点数据的关联、分组、聚合等操作时产生数据倾斜,进而数据处理延迟,在用户端出现延迟卡顿的情况。
目前针对此种现象,大多是在数据倾斜发生后,手动调整sql计算逻辑设定将热点数据固定打散若干倍数,无法自适应调控打散倍数。在后续并行计算时,只能固定并行计算的任务数量,无法合理利用资源使用情况自适应调节同时运行的任务数量。
在实现本发明过程中,发明人发现现有的在数据倾斜后进行手动干预处理调整运行规划中至少存在如下问题:
(1)规划滞后问题,由于无法预先判断出热点,从而不能预先进行任务资源有效配置;
(2)无法兼顾时效与稳定性问题,由于手动调整sql计算逻辑设定将热点数据固定打散若干倍数已经是在产生数据倾斜之后,因此在用户端不仅会存在延迟与不稳定的现象,而且由于需要实时调整会造成用户体验差;
(3)浪费运算资源的问题,对热点数据进行打散后并行计算时,只能固定采用最大任务并行度并行计算,若任务环节数小于此时固定的最大任务并行度,将会浪费运算资源。
发明内容
有鉴于此,本发明实施例提供一种数据运行优化处理方法和装置,能够很好地解决现有处理热点数据导致数据倾斜所存在的规划滞后、无法兼顾时效与稳定性和浪费运算资源的问题的至少一个,提高用户体验。
为实现上述目的,根据本发明的第一个方面,提供了一种数据运行优化处理方法。
本发明的数据运行优化处理方法包括:获取待检测数据,基于异常值检测算法确定所述待检测数据中的热点数据,根据所述热点数据的指标计数值确定所述热点数据的分桶个数,根据所述热点数据的分桶个数和任务运行时段的可用资源情况对所述热点数据进行任务运行规划。
可选地,所述获取待检测数据包括:基于实时流处理引擎获取与采集配置信息对应的实时流数据,并将所述实时流数据作为待检测数据;和/或,根据采集配置信息查询离线数据表,以得到与之对应的离线数据,并将查询到的所述离线数据作为待检测数据。其中,所述采集配置信息包括:关注字段、关注字段对应的热点数据评价指标。
可选地,所述异常值检测算法包括:正态分布3倍标准差算法,或,四分位箱型图算法。
可选地,在所述异常值检测算法为正态分布3倍标准差算法时,所述基于异常值检测算法确定所述待检测数据中的热点数据包括:对所述待检测数据在热点数据评价指标维度上进行汇聚,以得到汇聚后的指标计数值;确定所述待检测数据对应的正态分布的三倍标准差,并将其作为第一统计量;从所述待检测数据中筛选出所述汇聚后的指标计数值超过所述第一统计量的数据作为样本数据;确定所述样本数据对应的正态分布的三倍标准差,并将其作为第二统计量;从所述样本数据中筛选出所述指标计数值超过第二统计量的数据作为热点数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司,未经北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111086782.1/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置