[发明专利]数据聚合方法和装置在审

专利信息
申请号: 201911068327.1 申请日: 2019-11-05
公开(公告)号: CN112765210A 公开(公告)日: 2021-05-07
发明(设计)人: 刘汉生;薄明霞;牛剑锋;马娜;马晨;邵振亚;唐维;张鉴;唐洪玉 申请(专利权)人: 中国电信股份有限公司
主分类号: G06F16/2455 分类号: G06F16/2455;G06F16/2453;G06F16/951
代理公司: 中国贸促会专利商标事务所有限公司 11038 代理人: 许蓓
地址: 100033 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 数据 聚合 方法 装置
【说明书】:

本公开提出一种数据聚合方法和装置,涉及数据处理领域。本公开将待处理数据的各种任务进行解耦分离和并行处理,并基于各种任务的偏移量管理机制,将各种任务中已执行的公共部分进行持久化处理,从而高效快速地完成数据聚合。

技术领域

本公开涉及数据处理领域,特别涉及一种数据聚合方法和装置。

背景技术

随着信息技术的发展,网络安全形势日益严峻,为有效感知安全态势、尽早预防安全攻击,需有效聚合恶意IP、恶意域名、恶意文件及其关联情报数据,建立威胁情报库,为企业资产提供安全预警。

威胁情报库除了收集企业自有情报数据外,还需通过网络爬虫手段收集互联网公开情报源。随着情报数据量的增长,原有情报聚合机制需求的计算资源越来越多,响应时间越来越长,因此迫切需要一种能高效快速地完成情报聚合的解决方案。

发明内容

本公开将待处理数据的各种任务进行解耦分离和并行处理,并基于各种任务的偏移量管理机制,将各种任务中已执行的公共部分进行持久化处理,从而高效快速地完成数据聚合。此外,在任务执行过程中弹性分配处理资源,有效提高资源利用率,减少数据的处理时间。

本公开的一些实施例提出一种数据聚合方法,包括:

批量获取待处理的数据;

并行地对所述数据分别执行不同任务类型的各种任务处理,其中,每种任务类型的任务设置一个偏移量,用于记录相应任务类型的任务的执行进度;

根据各个偏移量确定各种任务中已执行部分的交集;

将所述交集中的数据进行持久化处理。

在一些实施例中,所述根据各个偏移量确定各种任务中已执行部分的交集包括:

获取持久化任务中已执行部分的补集;

获取除持久化任务之外的其他各种任务中已执行部分的第一交集;

将所述补集与所述第一交集的交集确定为所述各种任务中已执行部分的交集。

在一些实施例中,所述并行地对所述数据分别执行不同任务类型的各种任务处理包括:

对所述数据的每种任务分别切片得到相应任务的多个子任务;

确定各个子任务的优先级;

根据各个子任务的优先级,为优先级高的子任务优先调度处理资源;

利用调度的多个处理资源并行地处理各自相应的子任务。

在一些实施例中,所述对所述数据的每种任务分别切片得到相应任务的多个子任务包括:

根据∑iti与ti的比例信息确定某种任务类型的任务i的子任务切片的长度,其中,ti表示预设数量的数据执行任务i所需要的时间;

按照每种任务类型的任务i的子任务切片的长度,对任务i进行切片得到任务i的多个子任务。

在一些实施例中,所述确定某种任务类型的任务i的子任务切片的长度包括:

其中,leni表示任务i的子任务切片的长度,l表示可配置的常量。

在一些实施例中,所述确定各个子任务的优先级包括:

根据每种任务类型的任务的总数量和执行偏移量以及该任务的子任务预计所需的处理资源和当前容器的可用处理资源,确定相应任务的各个子任务的优先级,

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电信股份有限公司,未经中国电信股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911068327.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top