[发明专利]数据处理方法及装置有效
申请号: | 202010348381.8 | 申请日: | 2020-04-28 |
公开(公告)号: | CN111563017B | 公开(公告)日: | 2023-05-16 |
发明(设计)人: | 王林强 | 申请(专利权)人: | 北京字节跳动网络技术有限公司 |
主分类号: | G06F11/30 | 分类号: | G06F11/30 |
代理公司: | 北京中知法苑知识产权代理有限公司 11226 | 代理人: | 李明;赵吉阳 |
地址: | 100041 北京市石景山区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 | ||
本公开提供了一种数据处理方法及装置。本公开中,一个日志文件中为所有日志流设置了逻辑存储空间,在获取到某一日志流的日志记录之后,将获取的日志记录存储到该日志流对应的逻辑存储空间中,即实现了将日志存储系统管理的所有日志流对应的日志记录存储到磁盘的同一个日志文件中,相比于现有技术中,将日志存储系统所管理的每个日志流对应的日志记录分别存储到一个日志文件中相比,本公开实现了日志的追加写操作,能够有效提高日志存储系统的日志写入效率,提高日志存储系统的吞吐能力。
技术领域
本公开涉及日志存储处理领域,具体而言,涉及一种数据处理方法及装置。
背景技术
目前,分布式存储系统蓬勃发展,在分布式存储系统中为了提高系统的稳定性和可靠性,设置有多个数据备份,即多个副本,那么,在分布式存储系统中不可回避的就是保证各个副本存储的数据一致。目前,往往会通过一致性算法来保证各个副本中的数据保持一致。例如,利用常见的一致性协议Raft,在分布式存储系统中选举Leader节点,并由Leader节点负责管理日志复制来实现多副本的一致性。
在实现上述数据一致性算法时,都依赖预写式日志系统(Write-ahead logging,WAL),其是一种保证数据完整性的标准方法。一个分布式存储系统中为了保证系统数据的完整性,往往会将对系统的操作写入到WAL中,那么WAL的吞吐性能就会直接决定整个分布式存储系统的写入性能,因此,如何提高WAL的吞吐性是目前需要解决的技术问题。
发明内容
有鉴于此,本公开至少提供一种数据处理方法及装置。
第一方面,本公开提供了一种数据处理方法,包括:
分别获取日志存储系统中每个日志流对应的多条日志记录;
确定每个日志流对应的逻辑存储空间;其中,所有日志流对应的逻辑存储空间属于一个日志文件;
分别将每个日志流对应的所述多条日志记录存储到对应的逻辑存储空间中。
在一种可能的实施方式中,所述确定每个日志流对应的逻辑存储空间,包括:
为每个日志流分别设置用于标识该日志流的逻辑存储空间的第一标识符;
将每个日志流对应的第一标识符分别与该日志流的逻辑存储空间建立映射关系;
所述分别将每个日志流对应的所述多条日志记录存储到对应的逻辑存储空间中,包括:
获取每个所述日志流对应的第一标识符;
针对每个日志流,用该日志流的第一标识符标识该日志流对应的每条日志记录。
在一种可能的实施方式中,所述分别将每个日志流对应的所述多条日志记录存储到对应的逻辑存储空间中,还包括:
针对每个日志流,将该日志流对应的所述多条日志记录进行聚合处理,得到该日志流对应的日志块;
将各个所述日志流对应的日志块存储到所述日志文件中。
在一种可能的实施方式中,所述分别将每个日志流对应的所述多条日志记录存储到对应的逻辑存储空间中,还包括:
将各个日志流对应的日志块进行聚合处理,得到日志包;
将所述日志包存储到所述日志文件中。
在一种可能的实施方式中,上述数据处理方法还包括:
确定每个日志块的第二标识符,并用所述第二标识符标识每个日志块;
针对每条日志记录,基于该日志记录在该日志记录所属日志流中的生成次序,确定该日志记录的第三标识符;
利用所述第三标识符标识对应的日志记录。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京字节跳动网络技术有限公司,未经北京字节跳动网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010348381.8/2.html,转载请声明来源钻瓜专利网。