[发明专利]一种基因测序数据压缩和传输方法在审
申请号: | 201710140073.4 | 申请日: | 2017-03-10 |
公开(公告)号: | CN106971090A | 公开(公告)日: | 2017-07-21 |
发明(设计)人: | 左褀洋;唐元华;徐健 | 申请(专利权)人: | 首度生物科技(苏州)有限公司;苏州首度基因科技有限责任公司 |
主分类号: | G06F19/20 | 分类号: | G06F19/20;G06F19/28;G06F17/30 |
代理公司: | 北京恒泰铭睿知识产权代理有限公司11642 | 代理人: | 苏天功 |
地址: | 215123 江苏省苏州市苏州*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基因 序数 压缩 传输 方法 | ||
技术领域
本发明涉及基因检测技术领域,尤其是一种基因测序数据压缩和传输方法。
背景技术
随着基因测序技术的发展和测序成本的降低,尤其是新一代测序(NGS)的应用和普及,测序数据产出数量呈指数增长,而如何高效的存储和传输测序数据成为行业发展面临的一个重大挑战。成熟的DNA测序技术始于20世纪70年代化学降解法和双脱氧链终止法,后续又逐渐出现了荧光和杂交等测序方法,统称为第一代DNA测序技术,产出数据量通常在bp或者kb数量级上。2005年左右,454测序,solexa测序和SOLiD测序等技术的先后出现,新一代测序技术(NGS)迅速发展并成为主流技术。它最显著特征是高通量,可以同时对几十万到几百万条DNA分子进行序列测序,产出数据提升到GB或者TB数量级上,而大型国际项目数据产出可以高达PB级。目前NGS测序技术还在持续性更新,成本降低,通量上升,后续的第三代测序技术也接踵而来。而对于测序数据的压缩,存储和传输,使用传统的常规压缩方法,越来越难满足大数据分析的需求,其庞大的数据不但需要很大的存储空间,在数据传输过程中,其需要很长的时间,大大降低了数据传输的效率。
发明内容
为了解决上述技术问题,本发明提供了一种基因测序数据压缩方法,该方法在本地建立了标准DNA序列数据库,通过标准DNA数据库的编号代替DNA测序数据,不再单独存储和传输原文,从而大幅提高压缩,存储和传输效率。
一种基因测序数据压缩方法,包括以下步骤:
A. 建立标准DNA序列数据库:将标准DNA序列数据库部署到数据处理设备;
C. DNA测序数据的预处理:将DNA测序数据逐一与标准DNA数据库比对,生成对应关系,将标准DNA数据库编号替换DNA测序数据原文, 将DNA测序数据与标准DNA数据库差异的部分单独存储;
D. 压缩:将预处理后的DNA测序数据进行压缩形成压缩文件;
E. 将压缩文件进行存储或传输。
进一步地,步骤C为有损替换,即将测序数据的值就近转换为相应的质量值。
进一步地,在所述C步骤之前,还包括步骤B.去噪音步骤,将DNA测序数据中低质量数据和异常数据删除。
进一步地,所述步骤D包括第一次压缩和二次压缩,所述第一次压缩采用变种LZ77算法进行压缩,所述第二次压缩使用Huffman编码进行压缩。
本发明还公开了一种基因测序数据的传输方法,包括以下步骤
A. 建立标准DNA序列数据库:将标准DNA序列数据库部署到第一数据处理设备和第二数据处理设备;
C. DNA测序数据的预处理:在第一数据处理设备中将DNA测序数据逐一与标准DNA数据库比对,生成对应关系,将标准DNA数据库编号替换DNA测序数据原文, 将DNA测序数据与标准DNA数据库差异的部分单独存储;
D. 压缩:将预处理后的DNA测序数据在第一数据处理设备中进行压缩形成压缩文件;
E.将压缩文件由第一数据处理设备传输至第二数据处理设备。
进一步地,所述方法还包括步骤F.DNA测序数据的还原:第二数据处理设备根据标准DNA序列数据库信息,将压缩文件中的编号还原为序列,重新构建原始测序数据。
进一步地,所述第一数据处理设备为核心计算机或核心计算机群,所述第二数据处理设备为处理终端。
进一步地,步骤C为有损替换,即将测序数据的值就近转换为相应的质量值;所述步骤F将质量值信息统一还原为相应数据。
采用上述方法,本发明具有以下的技术效果:
1. 由于标准DNA序列数据库保存在数据处理设备中,因此,DNA测序数据中包含的大量信息可以通过标准DNA序列数据库的编号表示,因此,经过DNA测序数据的预处理步骤后的数据容量大大降低,再经过进一步压缩,容量更小,是的DNA测序数据的存储空间更小,数据传输效率更高,与第二代测序技术甚至是第三代测序技术的产出数据相匹配。
2. 采用有损压缩对DNA测序数据进行预处理,使得压缩后的文件容量更小,传输效率更高,并且具有保障数据的基本准确。
3. 设置B.去噪音步骤,将低质量数据和异常数据去除,从而不需要存储或传输这部分低质量数据和异常数据,从而使得数据容量减小,加快数据传输。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于首度生物科技(苏州)有限公司;苏州首度基因科技有限责任公司,未经首度生物科技(苏州)有限公司;苏州首度基因科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710140073.4/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用