[发明专利]流式计算系统的数据处理方法及装置、电子设备和介质有效
申请号: | 202110960122.5 | 申请日: | 2021-08-20 |
公开(公告)号: | CN113641693B | 公开(公告)日: | 2022-05-24 |
发明(设计)人: | 朱良昌;石然;汪婷;孙英富;田勇;龚宓 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/23 | 分类号: | G06F16/23;G06F16/27;G06F16/28 |
代理公司: | 北京市汉坤律师事务所 11602 | 代理人: | 姜浩然;吴丽丽 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 计算 系统 数据处理 方法 装置 电子设备 介质 | ||
1.一种流式计算系统的数据处理方法,包括:
获取第一数据流分片中的原始数据经处理后所得到的结果数据;
确定所述结果数据的数据类型,其中所述数据类型包括随机读写类型和顺序读写类型;以及
通过原子性写操作将所述确定的随机读写类型的数据以第一数据块的形式写入存储系统的第一存储区域以及将所述确定的顺序读写类型的数据以第二数据块的形式写入所述存储系统的第二存储区域,
其中,所述第一数据块包括指向同一原子性写操作所对应的所述第二数据块的指针。
2.如权利要求1所述的方法,其中,将所述随机读写类型的数据写入第一存储区域以及将所述顺序读写类型的数据写入第二存储区域包括:
分别基于预设的分片规则对所述第一存储区域和所述第二存储区域中的包含写入数据的文件进行分片。
3.如权利要求2所述的方法,其中,基于预设的分片规则对所述第一存储区域和所述第二存储区域中的包含写入数据的文件进行分片包括:
分别对于所述第一存储区域和所述第二存储区域:
响应于待写入的文件分片的大小达到预设阈值,将所述文件分片标记为只读文件分片;以及
创建新的文件分片,以将待写入的数据写入所述新的文件分片中。
4.如权利要求3所述的方法,其中,
将所述随机读写类型的数据和所述顺序读写类型的数据以关键字-值的形式写入所述存储系统中,并且其中,
所述随机读写类型的数据在所述第一存储区域中的位置信息以及相应的关键字保存在预设的第一文件中。
5.如权利要求1所述的方法,其中,所述第二数据块包括相应的原子性写操作所对应的第一数据块的信息。
6.如权利要求4所述的方法,还包括:
每隔预定时间段对所述第一存储区域中的只读文件分片执行压实操作,以删除相应的只读文件分片。
7.如权利要求6所述的方法,其中,对所述第一存储区域中的只读文件分片执行压实操作包括:
确定所述只读文件分片中的待删除文件分片;
基于所述关键字以及所述第一文件确定所述待删除文件分片中的留存数据;
将属于同一第一数据块的留存数据以所述第一数据块的形式重新写入当前正在被写入的文件分片中;以及
响应于所述待删除文件分片中的所有留存数据均已被重新写入,删除所述待删除文件分片;
其中,所述重新写入的第一数据块不再保留相应的指针。
8.如权利要求3所述的方法,其中,所述原始数据包括数据标识,并且所述原始数据相对应的结果数据具有相同的数据标识,其中,
所述方法还包括:
响应于接收到对顺序读写数据的删除指令,确定所述删除指令所对应的第一数据标识;
确定所述第二存储区域中的其包含的最大或最小数据标识小于所述第一数据标识的最新的只读文件分片;以及
基于所述确定的只读文件分片进一步确定待删除文件分片。
9.如权利要求8所述的方法,其中,所述第二存储区域中的文件分片的文件名包括所述文件分片所包含的最大或最小数据标识。
10.如权利要求9所述的方法,还包括:
响应于所述待删除文件分片中的每一个第二数据块所对应的第一数据块均被删除后,将所述待删除文件进行删除。
11.如权利要求6-9中任一项所述的方法,还包括:
在预设的第二文件中记录所述第一数据流分片所对应的文件分片的元信息。
12.如权利要求4所述的方法,还包括:
响应于获取到包含所述关键字的数据读取请求,基于所述关键字查询所述第一文件,以确定所述关键字所对应的数据在所述第一存储区域中的位置信息;以及
基于所述位置信息获取相应的值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110960122.5/1.html,转载请声明来源钻瓜专利网。