[发明专利]数据聚合方法和装置在审
申请号: | 201911068327.1 | 申请日: | 2019-11-05 |
公开(公告)号: | CN112765210A | 公开(公告)日: | 2021-05-07 |
发明(设计)人: | 刘汉生;薄明霞;牛剑锋;马娜;马晨;邵振亚;唐维;张鉴;唐洪玉 | 申请(专利权)人: | 中国电信股份有限公司 |
主分类号: | G06F16/2455 | 分类号: | G06F16/2455;G06F16/2453;G06F16/951 |
代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 许蓓 |
地址: | 100033 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 聚合 方法 装置 | ||
本公开提出一种数据聚合方法和装置,涉及数据处理领域。本公开将待处理数据的各种任务进行解耦分离和并行处理,并基于各种任务的偏移量管理机制,将各种任务中已执行的公共部分进行持久化处理,从而高效快速地完成数据聚合。
技术领域
本公开涉及数据处理领域,特别涉及一种数据聚合方法和装置。
背景技术
随着信息技术的发展,网络安全形势日益严峻,为有效感知安全态势、尽早预防安全攻击,需有效聚合恶意IP、恶意域名、恶意文件及其关联情报数据,建立威胁情报库,为企业资产提供安全预警。
威胁情报库除了收集企业自有情报数据外,还需通过网络爬虫手段收集互联网公开情报源。随着情报数据量的增长,原有情报聚合机制需求的计算资源越来越多,响应时间越来越长,因此迫切需要一种能高效快速地完成情报聚合的解决方案。
发明内容
本公开将待处理数据的各种任务进行解耦分离和并行处理,并基于各种任务的偏移量管理机制,将各种任务中已执行的公共部分进行持久化处理,从而高效快速地完成数据聚合。此外,在任务执行过程中弹性分配处理资源,有效提高资源利用率,减少数据的处理时间。
本公开的一些实施例提出一种数据聚合方法,包括:
批量获取待处理的数据;
并行地对所述数据分别执行不同任务类型的各种任务处理,其中,每种任务类型的任务设置一个偏移量,用于记录相应任务类型的任务的执行进度;
根据各个偏移量确定各种任务中已执行部分的交集;
将所述交集中的数据进行持久化处理。
在一些实施例中,所述根据各个偏移量确定各种任务中已执行部分的交集包括:
获取持久化任务中已执行部分的补集;
获取除持久化任务之外的其他各种任务中已执行部分的第一交集;
将所述补集与所述第一交集的交集确定为所述各种任务中已执行部分的交集。
在一些实施例中,所述并行地对所述数据分别执行不同任务类型的各种任务处理包括:
对所述数据的每种任务分别切片得到相应任务的多个子任务;
确定各个子任务的优先级;
根据各个子任务的优先级,为优先级高的子任务优先调度处理资源;
利用调度的多个处理资源并行地处理各自相应的子任务。
在一些实施例中,所述对所述数据的每种任务分别切片得到相应任务的多个子任务包括:
根据∑iti与ti的比例信息确定某种任务类型的任务i的子任务切片的长度,其中,ti表示预设数量的数据执行任务i所需要的时间;
按照每种任务类型的任务i的子任务切片的长度,对任务i进行切片得到任务i的多个子任务。
在一些实施例中,所述确定某种任务类型的任务i的子任务切片的长度包括:
其中,leni表示任务i的子任务切片的长度,l表示可配置的常量。
在一些实施例中,所述确定各个子任务的优先级包括:
根据每种任务类型的任务的总数量和执行偏移量以及该任务的子任务预计所需的处理资源和当前容器的可用处理资源,确定相应任务的各个子任务的优先级,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电信股份有限公司,未经中国电信股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911068327.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:网络攻击的检测方法、装置和计算机可读存储介质
- 下一篇:一种苹果摘果器
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置