[发明专利]批量配送文件的收集方法及装置、存储介质、终端在审
申请号: | 201910641276.0 | 申请日: | 2019-07-16 |
公开(公告)号: | CN110515991A | 公开(公告)日: | 2019-11-29 |
发明(设计)人: | 汤奇峰;蒋宇一 | 申请(专利权)人: | 上海数据交易中心有限公司 |
主分类号: | G06F16/25 | 分类号: | G06F16/25;G06F16/27 |
代理公司: | 11227 北京集佳知识产权代理有限公司 | 代理人: | 朱薇蕾;张振军<国际申请>=<国际公布> |
地址: | 200436 上海市静*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 配送 标志文件 文件目录 关联 存储介质 监控结果 降低功耗 收集效率 文件传输 终端 监控 优化 | ||
一种批量配送文件的收集方法及装置、存储介质、终端,所述收集方法包括:监控待收集文件目录;当监控结果表明所述待收集文件目录中有标志文件生成时,对所述标志文件关联的批量配送文件进行收集操作,其中,所述标志文件用于指示关联的批量配送文件传输完毕。通过本发明提供的方案能够优化对批量配送文件的收集逻辑,提高收集效率,降低功耗。
技术领域
本发明涉及数据处理技术领域,具体地涉及一种批量配送文件的收集方法及装置、存储介质、终端。
背景技术
大数据已经被广泛认为是一种战略性的新型资源,人们用它定义当今时代产生的海量数据以及相关的技术发展与服务创新。在产品上,大数据处理服务目前主要面向的是在分布式系统中具备一致性(Consistency)、可用性(Availability)以及分区容错性(Partition tolerance)(简称CAP)特性的产品,以及与信息发布领域中(Real TimeBidding,简称RTB)的相关业务,其量级已达到拍字节(Petabytes,简称PB)级别。在技术上,大数据处理服务基于的基础架构是海杜普(hadoop)等分布式系统基础架构,包括hadoop生态下的数据仓库工具hive等。
为支持大数据任务处理,现有技术主要采用水槽(flume)、日志收集管理工具(logstash)等第三方组件进行数据收集。
现有的第三方组件比较适合对实时配送数据进行收集。例如,在第三方数据流通系统对数据进行实时配送期间,现有的第三方组件可以持续、实时监控并收集配送完成的数据,以实现存档目的。
但是,若采用现有第三方组件的持续收集逻辑来收集批量配送文件,由于批量配送文件是以文件为最小传输单位进行传输的,在单个文件传输完毕之前,第三方组件的持续收集操作是没有意义的。例如,当收集到一个新增文件时,第三方组件会将该新增文件存储至目标存储地址,但是,若该新增文件当前并未传输完毕,则下一时刻第三方组件会针对该新增文件再次进行收集操作,并将新收集的新增文件覆盖目标存储地址上已有的新增文件,如此反复执行收集和覆盖操作,直至新增文件传输完毕。可见,现有的第三方组件在针对批量配送文件进行收集时,收集效率低,且严重增加第三方组件所在服务器的运行功耗。
因而,亟需提供一种能够更好地对批量配送文件的收集逻辑。
发明内容
本发明解决的技术问题是如何优化对批量配送文件的收集逻辑,提高收集效率,降低功耗。
为解决上述技术问题,本发明实施例提供一种批量配送文件的收集方法,包括:监控待收集文件目录;当监控结果表明所述待收集文件目录中有标志文件生成时,对所述标志文件关联的批量配送文件进行收集操作,其中,所述标志文件用于指示关联的批量配送文件传输完毕。
可选的,所述监控待收集文件目录包括:监控所述待收集文件目录中预设类型的文件的生成信息。
可选的,所述对所述标志文件关联的批量配送文件进行收集操作包括:基于所述标志文件关联的批量配送文件的文件信息生成收集指示信息,其中,所述收集指示信息包含目标收集类型;响应于所述收集指示信息,调用所述目标收集类型关联的收集工具对所述标志文件关联的批量配送文件进行收集操作。
可选的,所述收集指示信息还包含目标存储地址以及所述标志文件关联的批量配送文件的原始存储路径;所述响应于所述收集指示信息,调用所述目标收集类型关联的收集工具对所述标志文件关联的批量配送文件进行收集操作包括:调用所述目标收集类型关联的收集工具,自所述原始存储路径读取所述标志文件关联的批量配送文件并存储至所述目标存储地址。
可选的,所述收集指示信息还包含重试次数,在调用所述目标收集类型关联的收集工具对所述标志文件关联的批量配送文件进行收集操作之后,还包括:接收收集失败反馈信息,所述收集失败反馈信息包含失败次数;当所述失败次数小于所述重试次数时,重新进行收集操作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海数据交易中心有限公司,未经上海数据交易中心有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910641276.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:数据查询展示方法及查询展示系统
- 下一篇:一种海量数据的采集处理系统