[发明专利]一种日志数据处理方法及装置在审
申请号: | 202111613815.3 | 申请日: | 2021-12-27 |
公开(公告)号: | CN114461381A | 公开(公告)日: | 2022-05-10 |
发明(设计)人: | 王志华;唐中平;张武生;彭华杰;汪聘;谭运保 | 申请(专利权)人: | 天翼云科技有限公司 |
主分类号: | G06F9/50 | 分类号: | G06F9/50;G06F16/18 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100007 北京市东城区青*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 日志 数据处理 方法 装置 | ||
本发明提供了一种日志数据处理方法,应用于映射归约系统,规约系统包括映射模块和规约模块,该方法包括:通过映射模块获取目标文件,确定目标文件中各用户对应的初始日志;根据各用户的初始日志数量和规约模块的平均处理量为各初始日志分配盐值;按照各初始日志所对应的用户和盐值将初始日志分发至不同规约模块中,其中,属于同一用户,但盐值不同的初始日志分发至不同规约模块中;规约模块对接收到的初始日志进行规约处理,得到输出日志文件,通过执行本发明避免了数据倾斜,加快了日志处理系统的并行处理速度,提高了日志处理系统的处理效率。
技术领域
本发明属于大数据领域,具体涉及一种日志数据处理方法及装置。
背景技术
在日志系统中,对于像离线日志系统这种数据实时性要求不高的日志处理系统,一般采用批处理的形式来完成,如映射归约系统,日志处理系统需要处理客户千亿级别全量数据,数据量非常大,对性能要求非常高,实际中客户的数据有大有小,某大客户数据占比达70%,容易造成数据倾斜。
日志处理系统在处理过程中产生数据倾斜将严重影响到日志处理系统的运行速度,降低日志处理系统的处理效率。
发明内容
因此,针对现有技术中的问题,本发明提供一种日志数据处理方法及装置,用以解决现有技术中存在的问题。
第一方面,本发明提供一种日志数据处理方法,应用于映射归约系统,规约系统包括映射模块和规约模块,方法包括:通过映射模块获取目标文件,确定目标文件中各用户对应的初始日志;根据各用户的初始日志数量和规约模块的平均处理量为各初始日志分配盐值;按照各初始日志所对应的用户和盐值将初始日志分发至不同规约模块中,其中,属于同一用户,但盐值不同的初始日志分发至不同规约模块中;规约模块对接收到的初始日志进行规约处理,得到输出日志文件。
可选的,在本发明提供的日志数据处理方法中,根据各用户的初始日志数量和规约模块的平均处理量为各初始日志分配盐值,包括:根据各用户的初始文件数量和平均处理量分别确定各用户对应的一个或多个盐值;分别将各用户对应的盐值分配给各用户的初始日志,对应有相同盐值的初始日志的数量小于或等于平均处理量。
可选的,在本发明提供的日志数据处理方法中,获取目标文件,包括:读取存储模块中的序列化文件,对序列化文件进行反序列化处理,得到目标文件,目标文件经过序列化处理后存入存储模块。
可选的,在本发明提供的日志数据处理方法中,通过如下步骤对目标文件进行序列化处理:确定目标文件的字段格式;根据目标文件的字段格式将目标文件进行二进制序列化处理,得到序列化文件。
可选的,在本发明提供的日志数据处理方法中,对序列化文件进行反序列化处理,得到目标文件,包括:对序列文件进行二进制反序列化处理,得到反序列化文件;根据目标文件的字段格式将反序列文件转换为目标文件。
可选的,在本发明提供的日志数据处理方法中,根据目标文件的字段格式将目标文件进行二进制序列化处理,得到序列化文件,包括:判断目标文件是否存在对应的谓词下推配置和/或映射下推配置;若目标文件中存在谓词下推配置和/或映射下推配置,根据谓词下推和/或映射下推配置确定过滤条件;按照过滤条件对目标文件进行过滤,根据目标文件的字段格式对过滤后的目标文件进行二进制序列化处理,得到序列化文件。
可选的,在本发明提供的日志数据处理方法中,还包括:若目标文件中不存在谓词下推配置和/或映射下推配置,根据目标文件的字段格式将目标文件进行二进制序列化处理,得到序列化文件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天翼云科技有限公司,未经天翼云科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111613815.3/2.html,转载请声明来源钻瓜专利网。