[发明专利]一种基因测序数据压缩和传输方法在审

专利信息
申请号: 201710140073.4 申请日: 2017-03-10
公开(公告)号: CN106971090A 公开(公告)日: 2017-07-21
发明(设计)人: 左褀洋;唐元华;徐健 申请(专利权)人: 首度生物科技(苏州)有限公司;苏州首度基因科技有限责任公司
主分类号: G06F19/20 分类号: G06F19/20;G06F19/28;G06F17/30
代理公司: 北京恒泰铭睿知识产权代理有限公司11642 代理人: 苏天功
地址: 215123 江苏省苏州市苏州*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基因 序数 压缩 传输 方法
【说明书】:

技术领域

发明涉及基因检测技术领域,尤其是一种基因测序数据压缩和传输方法。

背景技术

随着基因测序技术的发展和测序成本的降低,尤其是新一代测序(NGS)的应用和普及,测序数据产出数量呈指数增长,而如何高效的存储和传输测序数据成为行业发展面临的一个重大挑战。成熟的DNA测序技术始于20世纪70年代化学降解法和双脱氧链终止法,后续又逐渐出现了荧光和杂交等测序方法,统称为第一代DNA测序技术,产出数据量通常在bp或者kb数量级上。2005年左右,454测序,solexa测序和SOLiD测序等技术的先后出现,新一代测序技术(NGS)迅速发展并成为主流技术。它最显著特征是高通量,可以同时对几十万到几百万条DNA分子进行序列测序,产出数据提升到GB或者TB数量级上,而大型国际项目数据产出可以高达PB级。目前NGS测序技术还在持续性更新,成本降低,通量上升,后续的第三代测序技术也接踵而来。而对于测序数据的压缩,存储和传输,使用传统的常规压缩方法,越来越难满足大数据分析的需求,其庞大的数据不但需要很大的存储空间,在数据传输过程中,其需要很长的时间,大大降低了数据传输的效率。

发明内容

为了解决上述技术问题,本发明提供了一种基因测序数据压缩方法,该方法在本地建立了标准DNA序列数据库,通过标准DNA数据库的编号代替DNA测序数据,不再单独存储和传输原文,从而大幅提高压缩,存储和传输效率。

一种基因测序数据压缩方法,包括以下步骤:

A. 建立标准DNA序列数据库:将标准DNA序列数据库部署到数据处理设备;

C. DNA测序数据的预处理:将DNA测序数据逐一与标准DNA数据库比对,生成对应关系,将标准DNA数据库编号替换DNA测序数据原文, 将DNA测序数据与标准DNA数据库差异的部分单独存储;

D. 压缩:将预处理后的DNA测序数据进行压缩形成压缩文件;

E. 将压缩文件进行存储或传输。

进一步地,步骤C为有损替换,即将测序数据的值就近转换为相应的质量值。

进一步地,在所述C步骤之前,还包括步骤B.去噪音步骤,将DNA测序数据中低质量数据和异常数据删除。

进一步地,所述步骤D包括第一次压缩和二次压缩,所述第一次压缩采用变种LZ77算法进行压缩,所述第二次压缩使用Huffman编码进行压缩。

本发明还公开了一种基因测序数据的传输方法,包括以下步骤

A. 建立标准DNA序列数据库:将标准DNA序列数据库部署到第一数据处理设备和第二数据处理设备;

C. DNA测序数据的预处理:在第一数据处理设备中将DNA测序数据逐一与标准DNA数据库比对,生成对应关系,将标准DNA数据库编号替换DNA测序数据原文, 将DNA测序数据与标准DNA数据库差异的部分单独存储;

D. 压缩:将预处理后的DNA测序数据在第一数据处理设备中进行压缩形成压缩文件;

E.将压缩文件由第一数据处理设备传输至第二数据处理设备。

进一步地,所述方法还包括步骤F.DNA测序数据的还原:第二数据处理设备根据标准DNA序列数据库信息,将压缩文件中的编号还原为序列,重新构建原始测序数据。

进一步地,所述第一数据处理设备为核心计算机或核心计算机群,所述第二数据处理设备为处理终端。

进一步地,步骤C为有损替换,即将测序数据的值就近转换为相应的质量值;所述步骤F将质量值信息统一还原为相应数据。

采用上述方法,本发明具有以下的技术效果:

1. 由于标准DNA序列数据库保存在数据处理设备中,因此,DNA测序数据中包含的大量信息可以通过标准DNA序列数据库的编号表示,因此,经过DNA测序数据的预处理步骤后的数据容量大大降低,再经过进一步压缩,容量更小,是的DNA测序数据的存储空间更小,数据传输效率更高,与第二代测序技术甚至是第三代测序技术的产出数据相匹配。

2. 采用有损压缩对DNA测序数据进行预处理,使得压缩后的文件容量更小,传输效率更高,并且具有保障数据的基本准确。

3. 设置B.去噪音步骤,将低质量数据和异常数据去除,从而不需要存储或传输这部分低质量数据和异常数据,从而使得数据容量减小,加快数据传输。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于首度生物科技(苏州)有限公司;苏州首度基因科技有限责任公司,未经首度生物科技(苏州)有限公司;苏州首度基因科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710140073.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top