[发明专利]一种日志数据处理方法及装置在审
申请号: | 202111613815.3 | 申请日: | 2021-12-27 |
公开(公告)号: | CN114461381A | 公开(公告)日: | 2022-05-10 |
发明(设计)人: | 王志华;唐中平;张武生;彭华杰;汪聘;谭运保 | 申请(专利权)人: | 天翼云科技有限公司 |
主分类号: | G06F9/50 | 分类号: | G06F9/50;G06F16/18 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100007 北京市东城区青*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 日志 数据处理 方法 装置 | ||
1.一种日志数据处理方法,应用于映射归约系统,所述规约系统包括映射模块和规约模块,其特征在于,所述方法包括:
通过所述映射模块获取目标文件,确定所述目标文件中各用户对应的初始日志;
根据各用户的初始日志数量和所述规约模块的平均处理量为各所述初始日志分配盐值;
按照各所述初始日志所对应的用户和盐值将所述初始日志分发至不同规约模块中,其中,属于同一用户,但盐值不同的初始日志分发至不同规约模块中;
所述规约模块对接收到的所述初始日志进行规约处理,得到输出日志文件。
2.根据权利要求1所述的日志数据处理方法,其特征在于,根据各用户的初始日志数量和所述规约模块的平均处理量为各所述初始日志分配盐值,包括:
根据各用户的初始日志数量和所述平均处理量分别确定各用户对应的一个或多个盐值;
分别将各用户对应的盐值分配给各用户的初始日志,对应有相同盐值的初始日志的数量小于或等于所述平均处理量。
3.根据权利要求1所述的日志数据处理方法,其特征在于,获取目标文件,包括:
读取存储模块中的序列化文件,对所述序列化文件进行反序列化处理,得到所述目标文件,所述目标文件经过序列化处理后存入所述存储模块。
4.根据权利要求3所述的日志数据处理方法,其特征在于,通过如下步骤对所述目标文件进行序列化处理:
确定所述目标文件的字段格式;
根据所述目标文件的字段格式将所述目标文件进行二进制序列化处理,得到序列化文件。
5.根据权利要求3所述的日志数据处理方法,其特征在于,对所述序列化文件进行反序列化处理,得到所述目标文件,包括:
对所述序列文件进行二进制反序列化处理,得到反序列化文件;
根据所述目标文件的字段格式将所述反序列文件转换为所述目标文件。
6.根据权利要求4所述的日志数据处理方法,其特征在于,根据所述目标文件的字段格式将所述目标文件进行二进制序列化处理,得到序列化文件,包括:
判断所述目标文件是否存在对应的谓词下推配置和/或映射下推配置;
若所述目标文件中存在谓词下推配置和/或映射下推配置;
根据谓词下推和/或映射下推配置确定过滤条件;
按照所述过滤条件对所述目标文件进行过滤,根据所述目标文件的字段格式对过滤后的目标文件进行二进制序列化处理,得到序列化文件。
7.根据权利要求6所述的日志数据处理方法,其特征在于,还包括:
若所述目标文件中不存在谓词下推配置和/或映射下推配置,根据所述目标文件的字段格式将所述目标文件进行二进制序列化处理,得到序列化文件。
8.一种日志数据处理装置,其特征在于,包括:
数据获取模块,用于通过映射模块获取目标文件,确定所述目标文件中各用户对应的初始日志;
盐值分配模块,用于根据各用户的初始日志数量和所述规约模块的平均处理量为各所述初始日志分配盐值;
数据处理模块,用于按照各所述初始日志所对应的用户和盐值将所述初始日志分发至不同规约模块中,其中,属于同一用户,但盐值不同的初始日志分发至不同规约模块中;所述规约模块对接收到的所述初始日志进行规约处理,得到输出日志文件。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机指令,所述计算机指令被处理器执行时实现如权利要求1-7中任一项所述的日志数据处理方法。
10.一种计算机设备,其特征在于,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,从而执行如权利要求1-7中任一项所述的日志数据处理方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天翼云科技有限公司,未经天翼云科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111613815.3/1.html,转载请声明来源钻瓜专利网。