[发明专利]一种运行于分布式系统的海量测序数据错误修正方法有效
申请号: | 201611186654.3 | 申请日: | 2016-12-20 |
公开(公告)号: | CN106599617B | 公开(公告)日: | 2019-02-15 |
发明(设计)人: | 林劼;江育娥 | 申请(专利权)人: | 福建师范大学 |
主分类号: | G16B30/10 | 分类号: | G16B30/10 |
代理公司: | 福州君诚知识产权代理有限公司 35211 | 代理人: | 彭东 |
地址: | 350108 福建省福州*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 运行 分布式 系统 海量 序数 错误 修正 方法 | ||
本发明公开一种运行于分布式系统的海量测序数据错误修正方法,所述分布式系统包括主节点、交换机和若干计算节点,若干计算节点通过交换机连接主节点,所述海量测序数据错误修正方法包括以下步骤:1)对测序数据进行预处理,确定测序数据的分组标准;2)对测序数据进行分区处理,平衡分布式系统各个计算节点的负载并传送测序数据到计算节点;3)对测序数据进行分布式错误修正。本发明所述方法与集中式系统相比,在处理海量测序数据方面具有速度快,精度高,以及成本低等优势。
技术领域
本发明涉及生物基因技术与计算机科学技术相关的交叉学科领域,尤其涉及一种运行于分布式系统的海量测序数据错误修正方法。
背景技术
下一代高通量测序(next generation sequencing,NGS,中文名又常称为二代测序或新一代测序)技术让全基因组分析和个性化基因医疗成为可能。下一代测序技术跟传统的 Sanger 测序比起来,有着速度快,费用少的特点,但是他们的缺点是在测序中出现大量的短序列数据及其携带的错误。由于实验技术的局限,这些短序列不可避免会存在一些错误,如果在序列拼接之前没有对这些错误进行修正,算法根据这些错误数据进行拼接,将会降低最终序列的质量。在短序列数据被拼接成为长序列(contig)之前,修复短序列数据是非常重要的一个步骤,是重组可靠长序列的前提和保证。
测序数据中产生的误差一直是一个困扰序列质量以及后续分析的重要问题, 下一代测序中的错误率与碱基质量有关,受测序仪本身、测序试剂、样品等多个因素共同影响。测序误差不但会干扰测序数据正常拼接,而且还无法正确识别样本中存在的遗传信息多态性,难以得到有价值的结果。由于测序实验过程比较复杂,每个过程中存在很多不可控制的随机因素,纯粹依靠实验技术的规范和改进是难以彻底消除测序错误。
下一代测序技术把整条待测序列分解成为短片段(read,被称为读段),对每个短片读段进行多次重复测量。所有的纠错方法都遵循这样一个前提条件:测序出来大多数的读段序列是正确的,只有少数的序列有错误存在。举例来说,在修正错误时,如果有M条相同的序列A,N条相同的序列B,序列A和序列B在规定的Hamming distance的阈值(y)范围内,在这种情况下,一般就认为序列A和序列B是从原始待测序列的同一个区域而来,此时判断数值M和N的大小,数量多的序列就被认为是正确的,数量少的序列则会被修正(依据数量多的序列)。
目前使用的纠错方法主要有以下三种:(1)基于k-spectrum的方法。(2)基于suffix tree/suffix array的方法。(3)基于multiple sequence alignment (MSA)的方法。
现有的错误修正算法计算复杂度高,执行效率低,对计算资源的要求很高,不适合应用在海量测序数据的环境。在处理大量数据时,需要大量内存以及很长的运行时间,特别是在全序列测序产生海量数据的环境下,一般的服务器将无法提供足够的内存和计算能力,需要超级计算机才能够处理。
发明内容
本发明的目的在于克服现有技术的不足,提供一种运行于分布式系统的海量测序数据错误修正方法。
本发明采用的技术方案是:
一种运行于分布式系统的海量测序数据错误修正方法,所述分布式系统包括主节点、交换机和若干计算节点,若干计算节点通过交换机连接主节点,所述海量测序数据错误修正方法包括以下步骤:
1)对测序数据进行预处理,确定测序数据的分组标准;
2)对测序数据进行分区处理,平衡分布式系统各个计算节点的负载并传送测序数据到计算节点;
3)对测序数据进行分布式错误修正。
步骤1中确定测序数据的分组标准具体包括以下步骤:
1-1,数据抽样过程:根据要处理的测序数据的特征进行数据抽样,确保抽样测序数据具有一定的代表性;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建师范大学,未经福建师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611186654.3/2.html,转载请声明来源钻瓜专利网。