[发明专利]一种校正高通量测序数据的方法和装置有效
申请号: | 201910194839.6 | 申请日: | 2019-03-14 |
公开(公告)号: | CN109920480B | 公开(公告)日: | 2020-02-21 |
发明(设计)人: | 周衍庆;陈亚如;尤沁;徐云 | 申请(专利权)人: | 深圳市海普洛斯生物科技有限公司 |
主分类号: | G16B20/00 | 分类号: | G16B20/00;G16B30/00 |
代理公司: | 深圳鼎合诚知识产权代理有限公司 44281 | 代理人: | 李小焦 |
地址: | 518000 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 校正 通量 序数 方法 装置 | ||
1.一种校正高通量测序数据的方法,其特征在于:包括以下步骤,
数据读取和比对步骤,包括读取高通量测序数据,将测序获得的read pair或read数据与参考基因组比对;
相同起点和终点位置子集构建步骤,包括根据比对结果将具有相同起点和终点位置的read pair或read分成一个子集,标记为Ai子集,i为子集的编号;
过滤步骤,包括比较每个子集中的read pair或read在基因组比对位置上的每一个碱基序列,再根据预设的突变阈值去除重复和假阳性突变位点;
输出步骤,包括输出高覆盖率的一致性数据,每一个子集只保留修正过的单一readpair或read,即获得校正后的测序数据;
还包括相同UMI子集构建步骤,所述过滤步骤和输出步骤都以所述相同UMI子集构建步骤构建的子集为基础进行;
对于单端Index UMI测序数据,所述相同UMI子集构建步骤包括,根据所述相同起点和终点位置子集构建步骤构建的Ai子集,在一个Ai子集中将UMI序列相同的read pair或read分成一个Bi子集;并根据UMI代表的read pair或read数量将Bi子集进行降序排序,将数量最高的UMI依次与其它UMI比较,合并UMI序列相差不超过设定阈值的Bi子集;然后,对未合并的其它Bi子集重复前述排序、比较和合并过程,直到最后一个Bi子集;
对于双端Insert UMI测序数据,所述相同UMI子集构建步骤包括,根据所述相同起点和终点位置子集构建步骤构建的Ai子集,在一个Ai子集中将UMI序列相同或倒置序列相同的read pair或read分成一个Bi子集;并根据UMI代表的read pair或read数量将Bi子集进行降序排序,将数量最高的UMI依次与其它UMI比较,合并UMI序列或者倒置序列相差不超过设定阈值的Bi子集;然后,对未合并的其它Bi子集重复前述排序、比较和合并过程,直到最后一个Bi子集。
2.根据权利要求1所述的方法,其特征在于:所述过滤步骤,具体包括,将每个子集内的每条read pair或read与参考基因组比对,识别突变位点和基因型,并统计突变位点每种基因型出现的频率,将出现频率和所占比例大于预设的突变阈值的基因型作为突变位点的基因型,根据所确定的突变位点的基因型重构read pair或read。
3.根据权利要求2所述的方法,其特征在于:所述输出步骤,具体包括,根据每个子集中重构的read pair或read,计算每个read pair或read的质量值,及其与参考基因组的编辑距离,输出高质量的read pair或read。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市海普洛斯生物科技有限公司,未经深圳市海普洛斯生物科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910194839.6/1.html,转载请声明来源钻瓜专利网。