[发明专利]高通量测序数据质量过滤方法和过滤装置有效
申请号: | 201611236128.3 | 申请日: | 2016-12-28 |
公开(公告)号: | CN106777262B | 公开(公告)日: | 2020-07-03 |
发明(设计)人: | 陈晨;王震;于伟文 | 申请(专利权)人: | 上海华点云生物科技有限公司 |
主分类号: | G06F16/174 | 分类号: | G06F16/174;G06F16/182;G16B15/00 |
代理公司: | 北京邦信阳专利商标代理有限公司 11012 | 代理人: | 金玺 |
地址: | 200335 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 通量 序数 质量 过滤 方法 装置 | ||
1.一种对高通量测序数据进行质量过滤的方法,其特征在于,所述方法包括:
根据所述高通量测序数据为并行计算做准备;
通过并行计算过滤掉准备好的数据中质量不达标的数据;
根据所述高通量测序数据中的质量数据确定质量转换方式;
对已确定质量转换方式的高通量测序数据进行切分;
生成对切分后的数据进行并行计算的执行实体;
所述对已确定质量转换方式的高通量测序数据进行切分包括:
将包含已确定质量转换方式的高通量测序数据的第一文件和第二文件分别转换为各自对应的第一RDD和第二RDD;
将第一RDD和第二RDD分别切分为各自对应的第一partition组和第二partition组;
根据第一文件和第二文件中对应的数据将第一RDD和第二RDD合并为第三RDD;
将第三RDD切分为第三partition组;
所述生成对切分后的数据进行并行计算的执行实体为:生成对第三partition组进行并行计算的执行实体task;如果第一文件和第二文件中一一对应的两个记录中的质量行某一位置及该位置以前的质量数据的质量值均大于等于预定质量值阈值,且这两个一一对应的记录中的序列行的碱基数均大于等于预定序列长度阈值,那么满足上述条件的高通量测序数据的记录称为质量达标;
第一文件和第二文件中的记录是一一对应的,每一个记录包括四行,其中序列行由A、T、G、C四种碱基组成;质量行中每一位置上的质量数据为该位置的碱基质量值的ASCII码表示方式,质量行和序列行长度相等;
第一RDD和第二RDD中的记录也是一一对应的, 而在通过并行计算对数据进行质量过滤时,需要同时遍历第一RDD和第二RDD中对应的记录,在进行并行计算以前,根据其中一一对应的记录,将第一RDD和第二RDD合并为第三RDD。
2.根据权利要求1所述的对高通量测序数据进行质量过滤的方法,其特征在于,所述通过并行计算过滤掉准备好的数据中质量不达标的数据包括:
根据预定质量值阈值和质量值转换方式通过执行实体对所述高通量测序数据并行地进行过滤;
根据预定序列长度阈值通过执行实体对保留下来的高通量测序数据并行地进行过滤。
3.根据权利要求2对高通量测序数据进行质量过滤的方法,其特征在于,所述根据预定质量值阈值、所述质量值转换方式对所述高通量测序数据进行过滤包括:
如果所述高通量测序数据某一记录中的质量行中的某一位置上的质量值小于预定质量值阈值,则通过执行实体并行地过滤掉所述质量行该位置及以后的数据,以及同一记录中的序列行中的对应位置及以后的数据。
4.根据权利要求3对高通量测序数据进行质量过滤的方法,其特征在于,所述根据预定序列长度阈值对保留下来的高通量测序数据进行过滤包括:
在保留下来的高通量测序数据中,如果第一文件和第二文件相对应的两个记录中有任意一个记录中的序列行长度小于预定长度阈值,则通过执行实体并行地过滤掉第一文件和第二文件中相对应的这两个记录。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海华点云生物科技有限公司,未经上海华点云生物科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611236128.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于多源异构数据集的数据查询方法及装置
- 下一篇:交互信息显示方法及系统