[发明专利]一种针对基因测序数据的存取方法在审
申请号: | 201710125326.0 | 申请日: | 2017-03-04 |
公开(公告)号: | CN108537007A | 公开(公告)日: | 2018-09-14 |
发明(设计)人: | 陈孟龙 | 申请(专利权)人: | 上海逐玛信息技术有限公司 |
主分类号: | G06F19/22 | 分类号: | G06F19/22 |
代理公司: | 上海愉腾专利代理事务所(普通合伙) 31306 | 代理人: | 唐海波 |
地址: | 201199 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文件系统 基因测序 解压缩 存取 压缩 存储 操作系统用户 数据存储方式 数据读取方式 访问方式 基因数据 空间创建 原始数据 透明的 整合 | ||
1.一种针对基因测序数据的存取方法,其特征在于,所述针对基因测序数据的存取方法包括以下步骤:
基于操作系统用户空间创建文件系统;
定义所述文件系统的访问方式;
定义所述文件系统的数据存储方式;
定义所述文件系统的数据读取方式;
通过所述文件系统实现针对基因测序数据的存取。
2.根据权利要求1所述的针对基因测序数据的存取方法,其特征在于,所述基于操作系统用户空间创建文件系统包括:在Linux用户空间创建一个文件系统,运行在Linux上,需要调用Linux/Fuse模块。
3.根据权利要求1所述的针对基因测序数据的存取方法,其特征在于,所述定义所述文件系统的访问方式包括:定义整个文件系统的访问流程如下:
用户程序发起IO读写请求;
用户的请求传递给操作系统GLIBC;
GLIBC将请求传递给虚拟文件系统接口VFS;
VFS统一了文件访问接口,将IO请求传递到Fuse内核模块;
Fuse内核模块将IO请求传递到用户空间GLIBC;
GLIBC将IO请求传递到Fuse的用户空间Libfuse;
Libfuse将数据请求传递到文件系统。
4.根据权利要求3所述的针对基因测序数据的存取方法,其特征在于,所述文件系统的基本操作通过Python来实现。
5.根据权利要求1所述的针对基因测序数据的存取方法,其特征在于,所述定义所述文件系统的数据存储方式包括:经过测序仪测序完成的基因数据fastq存入到文件系统,对fastq文件进行识别,自动调用针对fastq的基因数据压缩算法quip对fastq进行压缩,然后进行存储。
6.根据权利要求5所述的针对基因测序数据的存取方法,其特征在于,所述定义所述文件系统的数据读取方式包括:接受用户读取请求,调用quip对文件进行解压缩,透明地将数据反馈给请求用户。
7.根据权利要求6所述的针对基因测序数据的存取方法,其特征在于,所述压缩算法quip可替换为普通的gzip压缩算法。
8.根据权利要求7所述的针对基因测序数据的存取方法,其特征在于,所述针对基因测序数据的存取方法包括:编写接口使文件系统透明支持第三方针对基因数据的压缩方法。
9.根据权利要求1至8之一所述的针对基因测序数据的存取方法,其特征在于,所述文件系统的数据写入流程如下:
1)数据从用户应用写入文件系统,调用create函数;
2)调用write函数,将数据写入到文件系统;
3)调用release函数;
4)对文件的格式进行判断,如果是已经压缩了,就不用进行操作,到步骤6);
5)如果是原始fastq数据则进行压缩,到步骤6);
6)关闭文件系统。
10.根据权利要求1至8之一所述的针对基因测序数据的存取方法,其特征在于,所述文件系统的数据读取流程如下:
1)数据从用户应用打开文件系统,调用open函数;
2)判断该文件是否已经压缩;
3)如果已经压缩调用解压缩到步骤5);
4)如果尚未压缩,直接到步骤5);
5)调用read函数;
6)调用release函数,关闭文件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海逐玛信息技术有限公司,未经上海逐玛信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710125326.0/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用