[发明专利]基于内存映射的大数据文件快速并行提取方法在审
申请号: | 201910134260.0 | 申请日: | 2019-02-22 |
公开(公告)号: | CN109815249A | 公开(公告)日: | 2019-05-28 |
发明(设计)人: | 赵乔 | 申请(专利权)人: | 苏州华必讯信息科技有限公司 |
主分类号: | G06F16/23 | 分类号: | G06F16/23;H04L29/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 215300 江苏省苏州市昆山市玉*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 任务域 任务池 映射 读取 大数据文件 内存映射 任务调度 任务块 并行 内存映射文件 处理器执行 空闲处理器 磁盘文件 单个文件 调度粒度 任务提取 通信代价 大文件 类文件 剩余量 吞吐率 处理器 多核 归并 集合 调度 决策 应用 | ||
本发明公开了一种基于内存映射的大数据文件快速并行提取方法,包括:任务域生成,将任务块组成任务域,所述任务块为任务域中的元素;任务池生成,将所述任务域中的元素按低通信代价的原则进行子任务域归并,将所述任务域中的元素的集合作为任务调度的任务池,根据调度的选择来提取任务供处理器执行;任务调度,根据任务的剩余量决策任务的调度粒度,将符合要求的任务提取出所述任务池,并为映射做好准备;处理器映射,将所述提取出的任务映射到当前空闲处理器去执行。本发明能够发挥多核的优势,提高内存映射文件的效率,可以应用在单个文件在4GB以下容量的大文件读取中,能够有效提高这类文件的读取速度,提高磁盘文件I/O吞吐率。
技术领域
本发明涉及一种数据处理技术,具体说,涉及一种基于内存映射的大数 据文件快速并行提取方法。
背景技术
随着多核计算机的发展,多核PC机已经可以完成许多大规模计算任务, 复杂的计算往往与大量的数据文件相关,这就难免会出现应用程序一次性处 理几个GB数据文件的情况,目前面对这样大数据文件的处理,存储器与辅 助存储器内的数据读取往往会成为提高应用程序运行速度的瓶颈,从而不能 很好运用多核系统带来的优越硬件性能。现有的内存映射文件技术,全部是 在传统的单核环境下实现的,在针对大数据文件的处理方面存在着效率低下、 通用性差的缺点,即普通的内存映射方法处理效率低,经过改进的内存映射方法只能应用在某些特定问题上,不具备通用性。
在大数据文件的读取方面,主要面临的问题是数据的存储、提取、处理 和分析。DAS(Direct Attached Storage,直接附加存储)和FAS(Fabric Attached Storage,网络存储)是大数据文件存储技术的两个主流方向。近年来,网络 存储在P2P技术、网络存储系统等方面有了很好的发展,尤其是基于对象存 储的Lustre文件系统,以其并行的数据访问、分布式的元数据管理在性能上 超越了传统的网络存储架构。然而,随着当前多核处理器性能的急速提升, 对于采用DAS存储方式将外部存储设备直接挂接在服务器内部总线上的个人计算机或小型服务器,其大数据文件的读取速度已经难以满足处理器计算 的需求,如果文件的数据量过大甚至会出现操作系统不支持的情况,以导致 系统直接崩溃。
在已有的研究中,针对大数据文件快速提取及处理的解决方法主要集中 在两个方面。一种是改善硬件环境进行性能的提升,主要的做法是通过硬盘 技术、磁盘阵列技术等以提高大数据文件的处理能力。这种方法不但存在着 提升硬件成本的问题,而且仍无法避免文件量过大操作系统不支持的情况。 另一种解决方法就是内存映射文件技术。对内存映射文件技术的研究主要有 两个方面。一方面是直接利用内存映射文件技术配合相应算法提高大数据文 件的处理能力;另一方面是利用特定索引方式提高内存映射文件在解决特定 问题上的效率。
在已有的研究中,通过硬盘技术、磁盘阵列技术等来提高大数据文件的 处理能力,不但存在着提升硬件成本的问题,而且仍无法避免文件过大导致 操作系统不支持的情况。目前对大数据文件的处理普遍使用的一种方法是直 接利用内存映射技术和相应算法,虽然可以支持大的数据文件,但是处理效 率较低,影响系统的有效性。另一种处理大数据量文件的方法是利用特定索 引方式配合内存映射文件来提高解决特定问题的效率,这种方法只针对某些 特定问题,缺乏通用性。
内存映射文件(Memory-Mapped Files,MMFs)是Win32操作系统所提 供的处理大数据文件的技术,这种技术系统可以利用进程地址空间中的一部 分进行内存映射操作并负责管理页映射和缓冲等任务,这就使得用户在使用 上是非常方便的。大数据文件被映射之后,使用者无需关心它的具体管理工 作也并不需要再去通过传统的文件I/OAPI来进行文件操作,而是直接通过对 文件的指针进行操作来达到操作文件的目的,操作方式如同操作我们操作程 序中开辟的内存空间一样。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州华必讯信息科技有限公司,未经苏州华必讯信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910134260.0/2.html,转载请声明来源钻瓜专利网。