[发明专利]文件读取方法和装置在审
申请号: | 201610851849.9 | 申请日: | 2016-09-26 |
公开(公告)号: | CN107870928A | 公开(公告)日: | 2018-04-03 |
发明(设计)人: | 米维聪;席强辉;徐超 | 申请(专利权)人: | 上海泓智信息科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京康信知识产权代理有限责任公司11240 | 代理人: | 韩建伟,张永明 |
地址: | 200336 上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文件 读取 方法 装置 | ||
1.一种文件读取方法,其特征在于,包括:
读取步骤,以流的方式从文件中按照缓存区的大小读取预定长度的数据;
缓存步骤,将读取到的所述数据放在所述缓存区进行缓存;
预处理步骤,根据预先配置的预处理要求对缓存的所述数据进行预处理以得到所述数据的内容;
导入步骤,将所述数据的内容保存至数据平台;
循环依次执行所述读取步骤、所述缓存步骤、所述预处理步骤以及所述导入步骤完成对所述文件的读取。
2.根据权利要求1所述的方法,其特征在于,
将所述文件拆分为多个部分;
通过多个分布式服务对所述文件中的多个部分分别执行所述读取步骤、所述缓存步骤、所述预处理步骤、以及所述导入步骤,将所述多个部分对应的内容保存至所述数据平台;或者,
通过所述多个分布式服务对所述文件中的多个部分分别执行所述读取步骤、所述缓存步骤、以及所述预处理步骤得到所述多个部分对应的内容,再将得到的内容进行合并,并将合并之后的内容导入到所述数据平台。
3.根据权利要求2所述的方法,其特征在于,所述多个分布式服务分别对应独立的缓存区,并且,所述多个分布式服务对应的缓存区是根据所述分布式服务所在服务器的资源确定的。
4.根据权利要求2所述的方法,其特征在于,根据所述多个分布式服务各自的处理能力,将所述文件拆分为多个部分,并将所述多个部分分配至对应的分布式服务进行处理。
5.根据权利要求1至4中任一项所述的方法,其特征在于,以流的方式从所述文件中按照缓存区的大小读取预定长度的所述数据包括:
获取所述文件的大小;
在所述文件的大小超过阈值的情况下,以流文件的方式从所述文件中按照缓存区的大小读取预定长度的所述数据。
6.根据权利要求1至4中任一项所述的方法,其特征在于,在以流文件的方式从文件中按照缓存区的大小读取预定长度的数据之前,所述方法还包括:
配置所述缓存区的大小;
配置所述缓存区的备用缓存区,其中,所述备用缓存区的大小与所述缓存区的大小一致,所述备用缓存区为所述缓存区的备份。
7.根据权利要求1所述的方法,其特征在于,根据元数据信息对缓存的所述数据进行预处理包括:
从所述缓存区中按照字节进行读取,根据所述元数据信息获取所述数据中的内容,其中,所述元数据信息用于对数据进行内容解析,所述元数据信息包括以下至少之一:长度信息、数据类型、字节序、特殊字符、编解码方式、结束符的信息。
8.根据权利要求1至4中任一项所述的方法,其特征在于,还包括:
在所述读取步骤、所述缓存步骤、所述预处理步骤、所述导入步骤中的至少之一设置断点,其中,所述断点用于在步骤执行出错的情况下进行信息的记录,记录的所述信息用于进行任务恢复。
9.一种文件读取装置,其特征在于,包括:
读取模块,用于执行读取步骤,以流的方式从文件中按照缓存区的大小读取预定长度的数据;
缓存模块,用于执行缓存步骤,将读取到的所述数据放在所述缓存区进行缓存;
预处理模块,用于执行预处理步骤,根据预先配置的预处理要求对缓存的所述数据进行预处理以得到所述数据的内容;
导入模块,用于执行导入步骤,将所述数据的内容保存至数据平台;
循环模块,用于循环依次执行所述读取步骤、所述缓存步骤、所述预处理步骤以及所述导入步骤完成对所述文件的读取。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
拆分模块,用于将所述文件拆分为多个部分;
处理模块,用于通过多个分布式服务对所述文件中的多个部分分别执行所述读取步骤、所述缓存步骤、所述预处理步骤、以及所述导入步骤,将所述多个部分对应的内容保存至所述数据平台;或者,用于通过所述多个分布式服务对所述文件中的多个部分分别执行所述读取步骤、所述缓存步骤、以及所述预处理步骤得到所述多个部分对应的内容,再将得到的内容进行合并,并将合并之后的内容导入到所述数据平台。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海泓智信息科技有限公司,未经上海泓智信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610851849.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:文件评估方法和装置
- 下一篇:Hybrid框架下应用页面的翻页方法及系统