[发明专利]一种针对基因测序数据的存取方法在审
申请号: | 201710125326.0 | 申请日: | 2017-03-04 |
公开(公告)号: | CN108537007A | 公开(公告)日: | 2018-09-14 |
发明(设计)人: | 陈孟龙 | 申请(专利权)人: | 上海逐玛信息技术有限公司 |
主分类号: | G06F19/22 | 分类号: | G06F19/22 |
代理公司: | 上海愉腾专利代理事务所(普通合伙) 31306 | 代理人: | 唐海波 |
地址: | 201199 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文件系统 基因测序 解压缩 存取 压缩 存储 操作系统用户 数据存储方式 数据读取方式 访问方式 基因数据 空间创建 原始数据 透明的 整合 | ||
本发明公开了一种针对基因测序数据的存取方法,包括:基于操作系统用户空间创建文件系统;定义所述文件系统的访问方式;定义所述文件系统的数据存储方式;定义所述文件系统的数据读取方式;通过所述文件系统实现针对基因测序数据的存取;将针对基因数据的各种压缩方法整合到了文件系统当中,使文件系统能够存储更多的基因测序数据,最高可达到原始数据的15%;用户不需要先压缩数据再存储到文件系统,文件系统自动对数据进行压缩,简化了用户的使用;读取数据也不需要事先进行解压缩,文件系统自动会进行解压缩,解压缩操作对用户是透明的。
技术领域
本发明涉及计算机数据存取技术领域,尤其涉及一种针对基因测序数据的存取方法。
背景技术
当前的存储系统和文件系统都是通用的,并没有针对基因测序数据的特点,业务,数据格式进行优化、处理。如基于Linux的EXT4,XFS以及并行的文件系统Lustre等都是不对数据做任何处理的,也不会进行自动的压缩来达到节约空间的目的。因此当心的文件系统在对基因测序数据存储的时候会存在以下问题和缺点。
1.由于当前的文件系统是通用型的,不能够高效、高压缩比的存储基因测序数据
2.当前的的文件系统需要有第三方的压缩软件,人为的进行压缩保存,同时要访问数据的话,还需要先进行解压缩,数据的保存和访问都比较麻烦。
发明内容
鉴于目前存在的上述不足,本发明提供一种针对基因测序数据的存取方法,能够实现针对基因测序数据的存取。
为达到上述目的,本发明的实施例采用如下技术方案:
一种针对基因测序数据的存取方法,所述针对基因测序数据的存取方法包括以下步骤:
基于操作系统用户空间创建文件系统;
定义所述文件系统的访问方式;
定义所述文件系统的数据存储方式;
定义所述文件系统的数据读取方式;
通过所述文件系统实现针对基因测序数据的存取。
依照本发明的一个方面,所述基于操作系统用户空间创建文件系统包括:在Linux用户空间创建一个文件系统,运行在Linux上,需要调用Linux/Fuse模块。
依照本发明的一个方面,所述定义所述文件系统的访问方式包括:定义整个文件系统的访问流程如下:
用户程序发起IO读写请求;
用户的请求传递给操作系统GLIBC;
GLIBC将请求传递给虚拟文件系统接口VFS;
VFS统一了文件访问接口,将IO请求传递到Fuse内核模块;
Fuse内核模块将IO请求传递到用户空间GLIBC;
GLIBC将IO请求传递到Fuse的用户空间Libfuse;
Libfuse将数据请求传递到文件系统。
依照本发明的一个方面,所述文件系统的基本操作通过Python来实现。
依照本发明的一个方面,所述定义所述文件系统的数据存储方式包括:经过测序仪测序完成的基因数据fastq存入到文件系统,对fastq文件进行识别,自动调用针对fastq的基因数据压缩算法quip对fastq进行压缩,然后进行存储。
依照本发明的一个方面,所述定义所述文件系统的数据读取方式包括:接受用户读取请求,调用quip对文件进行解压缩,透明地将数据反馈给请求用户。
依照本发明的一个方面,所述压缩算法quip可替换为普通的gzip压缩算法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海逐玛信息技术有限公司,未经上海逐玛信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710125326.0/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用