[发明专利]用于RNA-SEQ分析的方法和系统在审
申请号: | 202080077454.2 | 申请日: | 2020-09-04 |
公开(公告)号: | CN115066502A | 公开(公告)日: | 2022-09-16 |
发明(设计)人: | 托德·吉拉恩 | 申请(专利权)人: | 蜂巢生物技术公司 |
主分类号: | C12Q1/6869 | 分类号: | C12Q1/6869;C12Q1/6855;C12Q1/6844 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 贺淑东;武晶晶 |
地址: | 美国马*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 rna seq 分析 方法 系统 | ||
本文公开了用于通过以下对样品的核酸分子(例如,RNA分子)进行计数的方法:在所述核酸分子内的截短碱基位置随机截短所述短核酸分子以产生截短的核酸分子,对所述截短的核酸分子进行扩增和测序以产生测序读段,将所述测序读段与参考序列比对以产生比对的测序读段,以及使用比对的测序读段的截短位置鉴定核酸分子的数目。本文还公开了用于构建保留所述核酸分子截短位置的测序文库的方法。本文还公开了使用对应于一个或多个靶序列的封闭性寡核苷酸组来使样品耗减或富集所述一个或多个靶序列的方法。
本申请要求于2019年9月6日提交的美国临时专利申请第62/897,003号的权益,其通过引用整体并入本文。
背景技术
RNA-seq已成为用于测量样品(包括下至单细胞)中基因表达的主要技术。已经开发了多种用于单细胞RNA-seq分析的高通量方法。大多数都围绕在逆转录期间在从单细胞衍生的所有转录物的3’末端添加独特的条形码。所谓的3’条形码化的文库通常会被扩增、片段化成适当的测序文库大小,然后附接到衔接子序列上,以用于在商业平台上进行测序。然后将测序读段按条形码分组,以鉴定从每个原始细胞中捕获的转录物。对这些文库进行任何操作的关键是维持3’条形码和转录物序列之间的连接,否则给定转录物的细胞来源会丢失。
发明内容
在一个方面,本文描述了一种用于对样品的核酸分子进行计数的方法,所述方法包括:(a)获得包含多个模板核酸分子的样品;(b)在所述多个模板核酸分子内的截短碱基位置随机截短所述多个模板核酸分子,其中所述截短包括在所述模板核酸分子的多个碱基位置中随机选择所述截短碱基位置,从而产生多个截短的核酸分子;(c)扩增所述多个截短的核酸分子的至少一部分以产生多个扩增的核酸分子,其中所述截短碱基位置保留在所述扩增的核酸分子中;(d)对所述多个扩增的核酸分子的至少一部分进行测序以产生多个测序读段,其中所述多个测序读段中的每个包含与所述相应的扩增的核酸分子的所述截短碱基位置对应的截短位置;(e)将所述多个测序读段的至少一部分与参考序列比对(align),从而产生多个比对的测序读段;和(f)使用所述多个比对的测序读段的截短位置鉴定存在于所述样品中的模板核酸分子的数目。在一些实施方案中,截短包括切割所述多个模板核酸分子。在一些实施方案中,截短包括对所述多个模板核酸分子进行碱催化的水解、超声剪切或部分酶促降解。在一些实施方案中,截短包括制备所述多个模板核酸分子的至少一部分的拷贝。在一个方面,用于对样品的核酸分子进行计数的方法包括:(a)获得包含多个模板核酸分子的样品;(b)在所述多个模板核酸分子内的截短碱基位置随机截短所述多个模板核酸分子,其中所述截短包括在所述模板核酸分子的多个碱基位置中随机选择所述截短碱基位置,从而产生多个截短的核酸分子;(c)扩增所述多个截短的核酸分子的一部分以产生多个扩增的核酸分子,其中所述截短碱基位置保留在所述扩增的核酸分子中;(d)对所述多个扩增的核酸分子的一部分进行测序以产生多个测序读段,其中所述多个测序读段中的每个包含与所述相应的扩增的核酸分子的所述截短碱基位置对应的截短位置;(e)将所述多个测序读段的一部分与参考序列比对,从而产生多个比对的测序读段;和(f)使用所述多个比对的测序读段的截短位置鉴定存在于所述样品中的模板核酸分子的数目。在一个方面,本文描述了一种用于对样品的核酸分子进行计数的方法,所述方法包括:(a)获得包含多个模板核酸分子的样品;(b)在所述多个模板核酸分子内的截短碱基位置随机截短所述多个模板核酸分子,其中所述截短包括在所述模板核酸分子的多个碱基位置中随机选择所述截短碱基位置并且制备所述模板核酸分子的至少一部分的拷贝,从而产生多个截短的核酸分子;(c)扩增所述多个截短的核酸分子的至少一部分以产生多个扩增的核酸分子,其中所述截短碱基位置保留在所述多个扩增的核酸分子中;(d)对所述扩增的核酸分子的至少一部分进行测序以确定存在于所述扩增的核酸分子的所述至少一部分中的独特截短碱基位置的数目;和(e)使用独特截短碱基位置的所述数目鉴定存在于所述样品中的模板核酸分子的数目。在一个方面,本文描述了一种用于对样品的核酸分子进行计数的方法,所述方法包括:(a)获得包含多个模板核酸分子的样品;(b)在所述多个模板核酸分子内的截短碱基位置随机截短所述多个模板核酸分子,其中所述截短包括在所述模板核酸分子的多个碱基位置中随机选择所述截短碱基位置并且制备所述模板核酸分子的一部分的拷贝,从而产生多个截短的核酸分子;(c)扩增所述多个截短的核酸分子的一部分以产生多个扩增的核酸分子,其中所述截短碱基位置保留在所述多个扩增的核酸分子中;(d)对所述扩增的核酸分子的一部分进行测序以确定存在于所述扩增的核酸分子的所述一部分中的独特截短碱基位置的数目;和(e)使用独特截短碱基位置的所述数目鉴定存在于所述样品中的模板核酸分子的数目。在一些实施方案中,所述方法包括将所述多个测序读段的至少一部分与参考序列比对,从而产生多个比对的测序读段。在一些实施方案中,所述方法包括处理所述扩增的核酸分子的至少一部分以产生测序文库,其中所述截短碱基位置保留在所述测序文库中。在一些实施方案中,所述多个模板核酸分子包括脱氧核糖核酸(DNA)分子。在一些实施方案中,所述多个模板核酸分子包括互补DNA(cDNA)分子。在一些实施方案中,所述多个模板核酸分子包括核糖核酸(RNA)分子。在一些实施方案中,所述样品包含一个或多个条形码化的珠粒,并且其中所述模板核酸分子是附接至所述条形码化的珠粒的cDNA分子。在一些实施方案中,所述cDNA分子通过对从细胞的单细胞样品中释放的RNA分子进行逆转录而获得。在一些实施方案中,截短包括从所述截短碱基位置产生所述模板核酸分子的所述拷贝。在一些实施方案中,截短包括制备作所述模板核酸分子的所述拷贝,其中所述截短碱基位置保留在所述拷贝中。在一些实施方案中,所述截短包括从所述多个模板核酸分子形成多个第二链cDNA分子,其中所述截短碱基位置保留在所述多个第二链cDNA分子中。在一些实施方案中,截短包括从所述多个模板核酸分子形成多个第二链cDNA分子,其中所述多个第二链cDNA分子包含所述截短碱基位置。在一些实施方案中,所述方法包括使所述多个模板核酸分子与多个第二链引物接触,其中所述多个第二链引物中的每个包含5’通用引物序列和与所述模板核酸分子的序列互补的3’序列,并且其中所述3’序列包含随机序列。在一些实施方案中,所述方法包括延伸所述多个第二链引物以产生所述多个第二链cDNA分子。在一些实施方案中,所述方法包括进行所述多个第二链cDNA分子的随机转座子插入以随机地片段化所述多个第二链cDNA分子。在一些实施方案中,3’序列包含5、6、7、8、9、10、11、12、13、14、15或16个碱基。在一些实施方案中,3’序列包含9或10个碱基。在一些实施方案中,3’序列在其5’侧与所述通用引物连接。在一些实施方案中,第二链引物包含侧序列(例如,5’SS)。在一些实施方案中,SS包含2至5个碱基。在一些实施方案中,SS包含5至9个碱基。在一些实施方案中,SS位于所述通用引物序列的侧翼。在一些实施方案中,所述SS位于所述通用引物序列和所述3’序列的侧翼。在一些实施方案中,所述模板核酸分子在5’至3’方向上包含通用引物序列、侧序列(SS)、样品条形码、聚(dT)序列和与靶核酸的序列互补的序列。在一些实施方案中,模板核酸分子包含侧序列(例如,3’SS)。在一些实施方案中,3’SS包含2至5个碱基。在一些实施方案中,3’SS包含5至7个碱基。在一些实施方案中,所述SS中的每个独立地包含已知序列。SS可以是设计的序列。在一些实施方案中,3’SS位于所述通用引物序列的侧翼。在一些实施方案中,所述获得包括通过对从一个或多个细胞样品中释放的多个靶核酸分子进行逆转录来产生所述模板核酸分子。在一些实施方案中,所述方法包括对多个靶核酸分子执行逆转录以产生多个模板核酸分子。在一些实施方案中,所述方法包括将所述一个或多个细胞样品在多个相分区中进行分配,使得单个细胞被捕获在单个分区中。在一些实施方案中,所述方法包括将所述多个靶核酸分子在多个相分区中进行分配。在一些实施方案中,所述方法包括从所述单细胞释放所述靶核酸分子,将来自单细胞的所述靶核酸分子捕获到条形码化的珠粒上,通过对所述靶核酸分子进行逆转录来产生模板核酸分子以及任选地合并所述多个相分区中的所述多个模板核酸分子。在一些实施方案中,所述方法包括将所述多个相分区中的所述多个模板核酸分子合并。在一些实施方案中,所述多个相分区包括微孔或液滴。在一些实施方案中,所述方法包括用多个样品条形码中的独特样品条形码标记所述多个靶核酸分子中的每个,所述多个样品条形码中的每个包含一组一个或多个核苷酸碱基。在一些实施方案中,所述方法包括用样品条形码标记所述多个靶核酸分子中的每个,所述样品条形码指示与所述靶核酸分子相关联的样品。在一些实施方案中,样品条形码在所述样品中的所述多个靶核酸分子的所有中是相同的。在一些实施方案中,所述方法包括从所述一个或多个细胞样品中释放所述多个靶核酸分子。在一些实施方案中,所述方法包括使用多个链终止核苷酸在所述截短碱基位置进行所述随机截短。在一些实施方案中,多个链终止核苷酸包含双脱氧核苷酸。在一些实施方案中,多个链终止核苷酸被配置为在所述多个截短的核酸分子之间产生截短大小分布。在一些实施方案中,所述方法包括化学地标记所述多个链终止核苷酸中的每个的3’碳位置以使得能够实现所述多个模板核酸分子的所述至少所述部分的通用5’引物位点的化学连接。在一些实施方案中,使用聚合酶链式反应(PCR)扩增来扩增截短的核酸分子。在一些实施方案中,PCR扩增包括抑制性PCR扩增。在一些实施方案中,所述方法包括第二PCR扩增,在此期间截短位点被保留。在一些实施方案中,所述方法包括重新建立所述测序文库的方向性的第二PCR扩增。在一些实施方案中,测序文库包含位于所述测序文库的核酸分子的3’和5’侧的已知侧序列(SS)。在一些实施方案中,3’和5’SS分别定义测序文库的3’和5’方向。在一些实施方案中,所述3’SS是模板核酸分子中的SS的拷贝,并且所述5’SS是第二链引物中的SS的拷贝。在一些实施方案中,3’SS对于文库的所有核酸分子是共有的。在一些实施方案中,5’SS对于文库的所有核酸分子是共有的。SS也可以是独特的。在一些实施方案中,侧序列具有2至5个碱基的长度。在一些实施方案中,侧序列具有5至9个碱基的长度。在一些实施方案中,侧序列具有约5个碱基的长度。在一些实施方案中,侧序列具有约6个碱基的长度。在一些实施方案中,侧序列具有约7个碱基的长度。在一些实施方案中,侧序列具有约8个碱基的长度。在一些实施方案中,侧序列具有约9个碱基的长度。在一些实施方案中,侧序列具有5至12个碱基的长度。在一些实施方案中,第二PCR扩增包括用索引引物扩增抑制性PCR产物,其中所述索引引物在5’-3’方向上包含衔接子序列、用于对所述测序文库进行索引化的索引序列和定制测序引物序列。在一些实施方案中,定制测序引物序列包含与UPS序列的一部分以及与侧序列互补的序列。在一些实施方案中,侧序列限定所述测序文库的3’或5’侧。在一些实施方案中,所述索引引物包含对5’和3’侧序列特异的序列,其中5’尾含有适当的衔接子。在一些实施方案中,定制测序引物序列具有约25-40个核苷酸的长度。在一些实施方案中,第二PCR扩增包括使用约5分钟的PCR退火时间。在一些实施方案中,在不纯化所述抑制性PCR扩增的抑制性PCR产物的情况下进行第二PCR扩增。在一些实施方案中,所述方法包括至少部分地基于确定具有相同映射碱基位置的所述多个比对的测序读段的定量测量来关联所述多个模板核酸分子的数目。在一些实施方案中,所述方法包括使用具有相同映射碱基位置和相同样品索引的所述多个比对的测序读段的数目来鉴定所述样品中存在的所述模板核酸分子的数目。在一些实施方案中,所述方法包括在(c)之前用多个非独特条形码中的非独特条形码标记所述多个截短的核酸分子中的每个,所述多个非独特条形码中的每个包含一组一个或多个核苷酸碱基。在一些实施方案中,所述多个非独特条形码中的每个包含一组约2至约100个核苷酸碱基、约2至约50个核苷酸碱基、约2至约20个核苷酸碱基或约2至约10个核苷酸碱基。在一些实施方案中,所述方法包括至少部分地基于确定具有相同映射碱基位置和相同非独特条形码的所述多个比对的测序读段的定量测量来关联所述多个模板核酸分子的数目。在一些实施方案中,所述多个模板核酸分子中的每个包含多个样品条形码中的独特样品条形码。在一些实施方案中,所述多个样品条形码中的每个包含一组约5至约100个核苷酸碱基。在一些实施方案中,所述方法包括使用具有相同映射碱基位置、相同非独特条形码和相同样品索引的所述多个比对的测序读段的数目来鉴定所述样品中存在的模板核酸分子的所述数目。在一些实施方案中,所述方法包括在(c)之前用多个独特分子标识符(UMI)中的UMI标记所述多个截短的核酸分子中的每个,所述多个UMI中的每个包含一组一个或多个核苷酸碱基。在一些实施方案中,所述多个UMI中的每个包含一组约5至约100个核苷酸碱基。在一些实施方案中,所述方法包括至少部分地基于确定具有相同映射碱基位置和相同UMI的所述多个比对的测序读段的定量测量来关联所述多个模板核酸分子的数目。在一些实施方案中,所述多个模板核酸分子中的每个包含多个样品条形码中的独特样品条形码。在一些实施方案中,所述多个样品条形码中的每个包含一组约5至约100个核苷酸碱基。在一些实施方案中,所述方法包括使用具有相同映射碱基位置、相同UMI和相同样品索引的所述多个比对的测序读段的数目来鉴定所述样品中存在的所述模板核酸分子的数目。在一些实施方案中,所述模板核酸分子中的每个包含共同的样品条形码。在一些实施方案中,所述方法包括使所述多个扩增的核酸分子富集或耗减一个或多个靶序列。在一些实施方案中,所述方法包括使所述多个扩增的核酸分子耗减一个或多个靶序列。在一些实施方案中,一个或多个靶序列包括核糖体RNA(rRNA)序列。在一些实施方案中,所述方法包括使用一个或多个封闭性寡核苷酸,其中所述一个或多个封闭性核苷酸中的每个包含所述一个或多个靶序列中的靶序列。在一些实施方案中,所述方法包括使用一个或多个封闭性寡核苷酸,其中所述一个或多个封闭性核苷酸中的每个包含所述一个或多个靶序列中的靶序列的拷贝或其片段。在一些实施方案中,所述方法包括使所述多个扩增的核酸分子富集一个或多个靶序列。在一些实施方案中,一个或多个靶序列包含T细胞或B细胞受体中的可变区、单核苷酸多态性(SNP)、剪接点或其组合。在一些实施方案中,测序包括全基因组测序(WGS)。在一些实施方案中,测序包括大规模平行测序。在一些实施方案中,测序以不超过约20X的深度进行。在一些实施方案中,测序包括获得第一测序读段和第二测序读段。在一些实施方案中,在所述第一测序读段中捕获样品条形码。在一些实施方案中,在所述第二读段中捕获对应于所述截短碱基位置的截短位置。在一些实施方案中,根据所述第二读段将模板核酸分子与所述参考序列比对。在一些实施方案中,在所述第二测序读段中捕获非独特条形码。在一些实施方案中,第二读段包括对所述模板核酸分子中约10至约50个碱基进行测序。在一些实施方案中,获得所述第一测序读段包括对所述模板核酸的3’侧序列进行测序并且获得所述第二测序读段包括对所述模板核酸的5’侧序列进行测序。在一些实施方案中,样品是生物样品。在一些实施方案中,执行截短而不执行标签化步骤。在一些实施方案中,所述方法包括调整鉴定为存在于所述样品中的模板核酸分子的所述数目,其中所述调整包括计算具有相同截短碱基位置的所述模板核酸分子的数目的最大似然估计。在一些实施方案中,使用泊松统计分布来计算最大似然估计。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于蜂巢生物技术公司,未经蜂巢生物技术公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080077454.2/2.html,转载请声明来源钻瓜专利网。