[发明专利]格式数据文件的并发处理方法、装置及系统有效
申请号: | 201910837014.1 | 申请日: | 2019-09-05 |
公开(公告)号: | CN110532237B | 公开(公告)日: | 2022-02-08 |
发明(设计)人: | 徐进;张昆;卢威 | 申请(专利权)人: | 恒生电子股份有限公司 |
主分类号: | G06F16/18 | 分类号: | G06F16/18;G06F16/14;G06F16/16;G06F16/172 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 薛娇 |
地址: | 310053 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 格式 数据文件 并发 处理 方法 装置 系统 | ||
本申请提供格式数据文件的并发处理方法、装置及系统,客户端获取服务端发送的文件分片元信息;客户端从格式记录文件中利用缓存窗口逐步读取文件分片元信息对应的文件分片内容,使得读取的文件分片内容于文件分片起始处确保多读取一个分隔符长度内容,于文件分片末尾处至少多读取一个缓存窗口的内容;在已读取的文件分片内容中逐条解析文件分片内容并删除首条格式记录,当文件分片已解析的内容总长度等于文件分片长度且文件分片末条格式记录解析尚未遇到分隔符时,继续解析直到解析到分隔符时停止解析操作,将解析操作后多条格式记录确定为文件分片的格式记录集。本申请能并发读取格式数据文件又能保证格式记录的完整性,提高速率时保证可靠性。
技术领域
本申请涉及通信技术领域,尤其涉及格式数据文件的并发处理方法、装置及系统。
背景技术
在异构平台之间通常会采用格式数据文件进行数据交互,格式数据文件由多条格式记录组成,是一类专门用于存放格式记录的文件。格式数据文件中不同格式记录之间采用预定义的分隔符(例如换行符[\n])分隔。
随着通信技术的逐步发展,格式数据文件的数据量也逐渐增加(例如,逐渐增加为上百G数据量乃至上T数据量)。为了方便异构平台之间传输格式数据文件,通常会对格式数据文件进行分片处理。
目前一种分片处理方案为,客户端对格式数据文件执行分片读取操作,调用多个线程并发读取格式数据文件的多个文件分片并缓存至客户端本地。但是本方案在执行读取操作时并未考虑格式记录的完整性,由于不同格式记录的大小不一,所以本方案基于固定窗口大小来读取文件分片,会导致读取到的部分格式记录是不完整的,可靠性较低。
目前另一种分片处理方案为,客户端对格式数据文件进行串行读取操作,每次读取时会读取完整的格式记录。本方案中虽然可以保证格式记录的完整性,但是串行处理的速度较低。
发明内容
鉴于此,本申请提供一种格式数据文件的并发处理方法、装置及系统,可以并发读取格式数据文件又能保证格式记录的完整性,提高速率同时保证可靠性。
为了实现上述目的,本申请提供了下述技术特征:
一种格式数据文件的并发处理方法,应用于客户端,包括:
在服务端对格式记录文件执行逻辑分片处理获得多个文件分片元信息后,获取所述服务端发送的一文件分片元信息;
从格式记录文件中,利用缓存窗口逐步读取所述文件分片元信息对应的文件分片的内容,使得读取到的文件分片内容于所述文件分片起始处至少多读取一个分隔符长度内容,于所述文件分片末尾处至少多读取一个缓存窗口的内容;
解析所述文件分片内容并删除首条格式记录,当解析内容长度等于文件分片长度且文件分片的末条格式记录解析尚未遇到分隔符时继续解析,直到解析到分隔符时停止解析操作,获得解析操作后多条格式记录;
将所述多条格式记录确定为所述文件分片对应的格式记录集。
可选的,所述文件分片元信息包括:
用于唯一表示所述格式记录文件的文件标识;
用于表示一文件分片于所述格式记录文件中排列位置的文件分片序号;
用于表示一文件分片字节长度的文件分片长度;
用于表示一文件分片起始位置相对于所述格式记录文件起始位置偏移量的文件分片起始位移;
用于表示分隔符样式或形式的分隔符样式。
可选的,从所述服务端存储的格式记录文件中,利用缓存窗口逐步读取所述文件分片元信息对应的文件分片的内容,使得读取的文件分片内容于所述文件分片起始处至少多读取一个分隔符长度内容,于所述文件分片末尾处至少多读取一个缓存窗口的内容,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于恒生电子股份有限公司,未经恒生电子股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910837014.1/2.html,转载请声明来源钻瓜专利网。