[发明专利]对基因序列进行压缩和解压缩的方法和设备有效
申请号: | 201610565189.8 | 申请日: | 2016-07-18 |
公开(公告)号: | CN107633158B | 公开(公告)日: | 2020-12-01 |
发明(设计)人: | 石永刚;孔鑫;令狐雄展;郭世硕;张周 | 申请(专利权)人: | 三星(中国)半导体有限公司;三星电子株式会社 |
主分类号: | G16B30/10 | 分类号: | G16B30/10;G16B35/20;G16B20/30;G16B40/00 |
代理公司: | 北京铭硕知识产权代理有限公司 11286 | 代理人: | 高燕;张川绪 |
地址: | 710000 陕西省西*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基因 序列 进行 压缩 和解 方法 设备 | ||
提供一种对基因序列进行压缩和解压缩的方法和设备,所述对基因序列进行压缩方法包括:根据高频变异信息和标准参考序列生成变异参考序列;根据待处理基因序列与所述变异参考序列的匹配结果对所述待处理基因序列进行压缩,以得到压缩后的基因序列。根据上述对基因序列进行压缩和解压缩的方法和设备,能够提高对基因序列的压缩率,从而减少基因序列的存储空间,并有助于对基因序列的拷贝和传输。
技术领域
本发明涉及计算生物学和生物信息技术领域,更具体地说,涉及一种对基因序列进行压缩和解压缩的方法和设备。
背景技术
基因序列是通过生物基因测序技术进行采集和测序而生成的,是生物信息学、遗传学、基因组学、医学等诸多领域的研究基础,具有重要的科学价值与实际意义。随着下一代高通量测序技术(Next-generation Sequencing,NGS)的日益成熟并大量使用,获取生物基因序列的时间大幅降低,成本显著下降,测序项目将更加普遍的应用于生物医疗领域。
与此同时,基因数据的存储量也在急剧的增长,以单个正常成年人类的全基因测序结果为例,经过测序仪所产生的全基因测序文件大小约在300GB~500GB之间,2013年年底,寄存公共测序序列的“序列档案”(the Sequence Read Archive,SRA)的储存量达到1000TB,美国国立卫生研究院宣布,该研究院存储世界上最大人类变异数据集,数据总量达2.6PB,且数据规模还在不断增加,存储这些基因序列会占用大量的存储空间。因此,如何在有限的资源中高效的存储这些基因序列,已经成为计算机领域和生物信息领域所面临的新课题。
发明内容
本发明的示例性实施例在于提供一种对基因序列进行压缩和解压缩的方法和设备,以解决现有技术中对基因序列的压缩率低、存储基因序列占用大量存储空间的技术问题。
根据本发明示例性实施例的一方面,提供一种对基因序列进行压缩的方法,所述方法包括:根据高频变异信息和标准参考序列生成变异参考序列;根据待处理基因序列与所述变异参考序列的匹配结果对所述待处理基因序列进行压缩,以得到压缩后的基因序列。
可选地,所述高频变异信息可包括发生变异的位点、在所述位点发生变异后对应的碱基。
可选地,在所述位点发生变异后,对应的碱基在所述位点处的变异频率可大于等于预定频率。
可选地,根据高频变异信息和标准参考序列生成变异参考序列的步骤可包括:将在所述位点发生变异后对应的碱基代替所述标准参考序列中所述位点发生变异前对应的碱基,以生成变异参考序列。
可选地,所述代替可指保留所述位点发生变异前对应的碱基,将在所述位点发生变异后对应的碱基作为标识碱基对在所述位点发生变异前对应的碱基进行标注,以利用所述标识碱基代替所述位点发生变异前对应的碱基参与匹配。
可选地,根据待处理基因序列与所述变异参考序列的匹配结果对所述待处理基因序列进行压缩的步骤可包括:按照按位偏移的方式将所述待处理基因序列划分为至少两个碱基序列片段;将每个碱基序列片段分别与所述变异参考序列进行匹配;当一碱基序列片段与所述变异参考序列匹配时,生成所述一碱基序列片段的对应于所述变异参考序列的索引信息,并用生成的索引信息替换所述一碱基序列片段。
可选地,所述索引信息可包括所述一碱基序列片段的起始位点和标识,所述标识指示与所述一碱基序列片段匹配的参考序列为变异参考序列。
可选地,相邻两个碱基序列片段之间可相差预定个数的位点,每个碱基序列片段可具有预定长度。
可选地,当所述变异参考序列中的以所述一碱基序列片段的起始位点开始所述预定长度范围内的碱基序列片段与所述一碱基序列片段完全一致时,所述一碱基序列片段可与所述变异参考序列匹配。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于三星(中国)半导体有限公司;三星电子株式会社,未经三星(中国)半导体有限公司;三星电子株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610565189.8/2.html,转载请声明来源钻瓜专利网。