[发明专利]用于Sanger测序的深度碱基识别器在审
申请号: | 201980082101.9 | 申请日: | 2019-12-10 |
公开(公告)号: | CN113168890A | 公开(公告)日: | 2021-07-23 |
发明(设计)人: | 储勇;S·施奈德;R·谢弗;D·吴 | 申请(专利权)人: | 生命科技股份有限公司 |
主分类号: | G16B30/20 | 分类号: | G16B30/20;G16B40/20 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 陈依心;黄嵩泉 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 sanger 深度 碱基 识别 | ||
提供了一种用于Sanger测序的深度碱基识别器系统和相关方法。这些方法使用深度机器学习。使用深度学习模型,基于分析的迹线来确定扫描标签概率。训练神经网络学习最佳映射函数以使连接时序列分类(CTC)损失函数降至最低。CTC函数用于通过匹配目标序列和预测的扫描标签概率来计算损失。解码器生成具有最大概率的序列。使用前缀束搜索的碱基识别测位仪用于遍历CTC标签概率以查找扫描范围,然后针对每个被识别碱基的扫描范围内的峰值标签概率的位置。使用从CTC标签概率计算的特征向量作为QV查找表中的索引来确定质量值(QV),以查找质量分数。
技术领域
本公开一般涉及用于碱基识别(basecall)的系统、装置和方法,并且更具体地涉及在Sanger测序分析中使用深度机器学习进行碱基识别的系统、装置和方法。
背景技术
使用毛细管电泳(CE)遗传分析仪的Sanger测序是金标准DNA测序技术,其提供了高准确度、长读取能力和支持许多研究领域中的不同应用范围的灵活性。用于CE遗传分析仪上Sanger测序的碱基识别和质量值(QV)的准确度对于成功的测序项目是必要的。开发了传统的碱基识别器以提供完整和集成的碱基识别解决方案来支持测序平台和应用。它最初被设计成碱基识别长质粒克隆(纯碱基),然后后来延伸到碱基识别混合碱基数据以支持变体鉴定。
然而,明显的混合碱基偶尔被称为纯碱基,即使预测的QV很高,并且由于测序伪影,例如染料斑点、聚合酶滑动和引物杂质引起的n-1峰、迁移率移位等,也相对频繁地出现假阳性,其中纯碱基被错误地称为混合碱基。显然,需要改进混合碱基的碱基识别和QV准确度以支持用于鉴定变体如单核苷酸多态性(SNP)和杂合插入缺失变体(het indels)的测序应用。由于5'和3'端的迁移率移位和低分辨率,5'和3'端的传统碱基识别器的碱基识别精度也相对较低。传统碱基识别器也很难对长度短于150个碱基对(bps),特别是短于100bps的扩增子进行碱基识别,未能估计平均峰间距、平均峰宽度、间距曲线和/或宽度曲线,有时会导致错误率增加。
因此,非常希望对于混合碱基和5'和3'末端提高碱基识别准确度,使得碱基识别算法可以提供更高保真度的Sanger测序数据,改进变体识别、增加读取长度,并且还节省测序应用的测序成本。
变性毛细管电泳是本领域普通技术人员熟知的。总之,在毛细管的入口端将核酸样本注射到毛细管中的变性分离介质中,并对毛细管两端施加电场。样本例如聚合酶链式反应(PCR)混合物或其它样本中的不同核酸组分由于其电泳特性的差异而以不同的速度迁移到检测点。因此,它们在不同时间到达检测器(通常是紫外(UV)或荧光检测器)。结果呈现为一系列检测的峰,其中每个峰理想地代表样本的一种核酸组分或种类。峰面积和/或峰高度表示所述混合物中的组分的初始浓度。
任何给定峰(包括伪影峰)的量值最通常是基于核酸(例如DNA)的UV吸收或来自与核酸相关联的一个或多个标签的荧光发射而光学地确定。适用于核酸CE检测的UV和荧光检测器是本领域公知的。
CE毛细管本身通常是石英,尽管可以使用本领域技术人员已知的其它材料。商业上有许多CE系统,具有单毛细管和多毛细管能力。本文所述的方法适用于使核酸样本的CE变性的任何装置或系统。
因为游离溶液中不同大小的多核苷酸的电荷-摩擦阻力比相同,所以电泳分离需要存在筛分(即分离)介质。适用的CE分离基质与变性核酸CE所必需的变性剂的存在相容,变性剂的常见实例是8M尿素。
发明内容
描述了用于碱基识别应用的系统和方法,例如在基于微流体分离的碱基识别系统中(其中分离通过蚀刻到玻璃、硅或其它衬底中或上的微通道进行),或通过使用单个或多个圆柱形毛细管的毛细管电泳分离。
附图说明
为了容易地识别对任何特定元件或动作的讨论,附图标记中的一个或多个最高有效数位是指其中首次引入所述元件的附图编号。
图1示出了根据一个实施例的CE装置100。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于生命科技股份有限公司,未经生命科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980082101.9/2.html,转载请声明来源钻瓜专利网。
- 一种简化的Sanger法基因测序方法
- 一种Sanger测序反应优化剂、应用该优化剂的测序反应体系及测序方法
- 基于Sanger测序灵敏检测人类EGFR基因突变的方法及其试剂盒
- 用于肺癌EGFR基因Sanger测序前样品质控的分子指标、试剂盒及方法
- 一种重叠延伸PCR结合Sanger测序检测不连续多DNA位点的方法
- 基于Sanger测序法对Pax1基因启动子区甲基化多位点的检测方法
- Sanger法检测CNIs药物基因多态性的试剂盒及其使用方法
- 一种检测结直肠癌相关基因变异的引物及其应用
- 检测FANCA基因第14号外显子突变位点c.1235C>T的引物和方法
- Sanger神经网络并行主元抽取的工作模态参数识别方法和系统