[发明专利]压缩分子标记的核酸序列数据的方法有效
申请号: | 201880032274.5 | 申请日: | 2018-05-15 |
公开(公告)号: | CN110914911B | 公开(公告)日: | 2023-09-22 |
发明(设计)人: | C-Z·白 | 申请(专利权)人: | 生命科技股份有限公司 |
主分类号: | G16B20/00 | 分类号: | G16B20/00;G16B40/00;G16B50/00;G16B50/50;C12Q1/6869;G16B30/10 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 陈洁;周全 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 压缩 分子 标记 核酸 序列 数据 方法 | ||
1.一种压缩分子标记的核酸序列数据的方法,其包括:
接收多个核酸序列读段、多个流动空间信号测量值的向量和多个序列比对值,其中每个序列读段与分子标记序列相关,所述分子标记序列标识由核酸样品中的特定多核苷酸分子产生的序列读段家族,其中每个流动空间信号测量值的向量和每个序列比对值与所述序列读段的一个相对应;
将与相同分子标记序列相关的序列读段分组以形成序列读段家族、流动空间信号测量值的对应向量和对应的序列比对值,每个家族具有许多成员;
计算所述流动空间信号测量值的对应向量的算术平均值以形成所述家族的共有流动空间信号测量值的向量;
计算所述流动空间信号测量值的对应向量的标准偏差以形成所述家族的标准偏差向量;
基于所述家族的所述共有流动空间信号测量值的向量确定共有碱基序列;
通过将所述共有碱基序列与所述家族的所述对应序列比对值的映射质量最高的所述序列读段进行比较来确定共有序列比对值;
生成包含共有压缩数据的压缩数据结构,所述共有压缩数据包括每个家族的所述共有碱基序列、所述共有序列比对值、所述共有流动空间信号测量值的向量、所述标准偏差向量和成员数量;以及
使用至少一部分来自于所述压缩数据结构的所述共有压缩数据确定给定共有碱基序列中的变体。
2.根据权利要求1所述的方法,其还包括确定所述家族的序列读段是否流同步。
3.根据权利要求1所述的方法,其还包括基于匹配流同步定义所述家族的子族,其中所述子族的序列读段流同步。
4.根据权利要求3所述的方法,其还包括进行以下步骤:计算所述流动空间信号测量值的向量的算术平均值,计算所述流动空间信号测量值的向量的标准偏差,并且确定所述家族的子族的序列读段的共有碱基序列,其中所述生成压缩数据结构包括所述家族的子族的共有压缩数据。
5.根据权利要求1所述的方法,其中所述接收还包括接收至少一个与流动空间信号测量值的每个向量相对应的模型参数,其中所述方法还包括计算所述家族的流动空间信号测量值的对应向量的所述模型参数的算术平均值以形成所述家族的至少一个共有模型参数,其中所述生成压缩数据结构包括所述共有压缩数据中的所述共有模型参数。
6.根据权利要求5所述的方法,其中所述确定所述家族的序列读段的共有碱基序列进一步基于所述家族的所述至少一个共有模型参数。
7.根据权利要求5所述的方法,其中所述至少一个模型参数包括不完整扩展(IE)参数。
8.根据权利要求5所述的方法,其中所述至少一个模型参数包括转发(CF)参数。
9.根据权利要求1所述的方法,其中所述确定变体是基于对应所述给定共有碱基序列的所述共有流动空间信号测量值的向量和所述标准偏差向量。
10.根据权利要求1所述的方法,其中所述确定变体还包括基于所述共有流动空间信号测量值的向量中给定位置的所述共有流动空间信号测量值与所述标准偏差向量中给定位置的所述标准偏差的函数,估计候选等位基因的预测流动空间信号值的对数似然性。
11.根据权利要求1所述的方法,其中所述压缩数据结构与BAM文件格式兼容。
12.根据权利要求1所述的方法,其包括将所述共有碱基序列映射到参考基因组以生成当所述共有碱基序列不匹配所述家族中映射质量最高的序列读段时的所述共有序列比对值。
13.根据权利要求1所述的方法,其中所述多个核酸序列读段包含正向序列读段和反向序列读段,其中将序列读段分组还包括标识所述家族的子族,其中第一子族含有所述正向序列读段而第二子族含有所述反向序列读段。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于生命科技股份有限公司,未经生命科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880032274.5/1.html,转载请声明来源钻瓜专利网。