[发明专利]一种基于“数据追加情况下的平均分段并行”的列式存储并行方法在审

专利信息
申请号: 201710545387.2 申请日: 2017-07-06
公开(公告)号: CN107329835A 公开(公告)日: 2017-11-07
发明(设计)人: 蒋步星 申请(专利权)人: 北京润乾信息系统技术有限公司
主分类号: G06F9/50 分类号: G06F9/50
代理公司: 暂无信息 代理人: 暂无信息
地址: 100085 北京市*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 数据 追加 情况 平均 分段 并行 存储 方法
【说明书】:

技术领域

本发明涉及平均分段,更具体地来说,特别涉及一种基于“数据追加情况下的平均分段并行”的列式存储并行方法。

背景技术

随着全球对知识产权的重视,其中发明专利的发展趋势越来越好,各行业各领域申请授权的发明专利的数量日趋庞大,特别是机械、生物、化工、医药、互联网行业更是如此。面对这些大量的已经授权的发明专利,合理利用这些现有的已知技术显的重中之重。于是出现了很多利用遗传资源衍生出的发明专利,利用现有的已经授权的已知技术进行技术层面的改造升级等。本发明正是基于发明“一种数据追加情况下的平均分段并行方法”衍生出来的。

依据专利法的要求,陈述本发明专利直接来源是申请号为201710461630.2的发明专利,201710461630.2的发明专利在申请过程中保密,与本发明专利申请人同为“北京润乾信息系统技术有限公司”,发明人蒋步星,发明人通过对201710461630.2的发明专利深入的研究,在原有专利技术层面上进行了突破。本发明专利应用于难以实现的列式平均分段。

由于单核CPU速度提升的局限性,提升计算机速度的主要途径是使用多核CPU。多核CPU的普及对数值计算的发展产生了历史性的改变,由于多核和单核CPU设计理念的不同,单核CPU上运行良好的软件或者以前的算法不能使多核CPU发挥其最大效能,要想高效利用多核CPU,就必须改进原有的老程序,融进并行算法的思想。把原来串行的计算改成并行的计算,如果要并行计算,就需要每个线程分别处理一部分数据,所以要把数据分段给各个线程。

列式存储的优点是极高的装载速度(最高可以等于所有硬盘IO的总和,基本是极限了)、而大数据运算中相当多的时间成本是消耗在数据装载环节,对于不再修改的历史数据采用列式存储能够大幅提高运算性能。

列存和并行都能提高性能,但是列存不容易实现灵活的分段并行。分段有两个基本需求:每段数据量基本相同(每个线程处理能力相当),可以较灵活的分段(事先不能预测线程数)。行式存储时相对容易实现分段,只要每条(也可以每N条)记录后做一个结束标记,在分段时按字节数平均分成K段,然后在每段中寻找到结束标记后作为开始点即可。但列式存储不能采用同样的办法,因为字段值是不定长的,导致某个列的分段点未必和另一个列的同样的分段点同步落在同一条记录上,这会错位导致错误的数据。

目前现有技术列式存储的分段采用分块方案:分段必须以块为单位,在块内不再分段并行。这样就会有一个矛盾,首先,分块数不能太少了,否则就无法做到灵活分段了(只有5个分块时不可能做出10个分段),按现代服务器的CPU(核)数,要有上百个分块才能比较自由地平衡分段;但是,分块数又不能太多,列数据在物理上会被拆成多个不连续的小块,不仅使得遍历代码复杂很多,而且还会多读入少量两块之间的无用数据,对于机械硬盘还有寻道时间问题,分块数越多这些问题就越严重。只有分块内列数据占用空间比读入缓冲区大很多时,无用数据读入时间和寻道时间的占比才会比较小,这就要求每个分块中有足够多的记录数,也就是说,实现列存并行,数据量要足够大才有意义,对于机械硬盘(包括用机械硬盘构成的阵列)上一般得达到单机单表十亿记录、空间约在百G以上。规模较小的数据量就不容易获得并行计算的性能提升,而特别适合使用列存的多维分析业务的数据量就处于这种尴尬的规模中。另外,分块容量在数据追加前就要确定下来,随着数据的不断追加,相邻分块却不能物理上合并,分块数就会越来越多,这将给管理造成不少麻烦,需要可扩展的空间专门存储分块的索引信息。

上述列式存储的分段方法有诸多问题,针对这些问题本发明创造基于“一种数据追加情况下的平均分段并行方法”研发出的列式存储并行方法。

发明内容

为了克服前述问题,本发明的目的在于提供一种基于“数据追加情况下的平均分段并行”的列式存储并行方法。

一种基于“数据追加情况下的平均分段并行”的列式存储并行方法,使用步骤为:

1.在列式存储业务系统中,在文件最前面创建q(指列数,每个列对应一个段索引区)个固定长度的段索引区,这样能保证后面的并行分段不会错位,每一条记录都是完整准确的,下面的操作这q个段索引区文件同时同步进行,保证记录的完整性;

2.在文件每个段索引区中创建成n个记段的起始位置以及段长度的字段组;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京润乾信息系统技术有限公司,未经北京润乾信息系统技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710545387.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top