[发明专利]一种基于深度学习的第三代测序数据的自校正纠错方法在审
申请号: | 202210380222.5 | 申请日: | 2022-04-12 |
公开(公告)号: | CN114664379A | 公开(公告)日: | 2022-06-24 |
发明(设计)人: | 张艳菊;王鹤杰;陈嘉豪;蓝小斌 | 申请(专利权)人: | 桂林电子科技大学 |
主分类号: | G16B30/10 | 分类号: | G16B30/10;G16B30/20;G16B40/00;G06N3/04;G06N3/08 |
代理公司: | 桂林市华杰专利商标事务所有限责任公司 45112 | 代理人: | 陶平英 |
地址: | 541004 广*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 第三代 序数 校正 纠错 方法 | ||
本发明公开了一种基于深度学习的第三代测序数据的自校正纠错方法,该方法是通过对第三代DNA测序数据进行质量控制,得到高质量的测序序列;将高质量测序序列与其对应的参考基因组进行比对,得到比对序列MSA;对高质量测序序列生成的MSA进行定长的切片,对于每个片段,提取其中的有用特征,并将其编码成图像;将图像视为训练集,训练深度学习模型;对未纠错的序列uncorrected reads执行自我比对,得到比对序列uncorrected MSA进行定长的切片,对于每个片段,提取其中的有用特征,并将其编码成图像;将uncorrected reads编码成的图像,输入训练完成的深度学习模型中进行分类,若分类结果与真实图像中心位置碱基种类不匹配,则纠正真实图像;对纠正后的图像进行反编码,生成纠错后的corrected reads。
技术领域
本发明涉及生物信息技术领域,具体是一种基于深度学习的第三代测序数据的自校正纠错方法。
背景技术
近年来,第三代测序技术突飞猛进,其最主要的优势是能够提供平均长度超过10kbp的长读段。这种长读段可以解决第二代测序技术由于自身的读长限制(通常小于200bp)造成的瓶颈。例如,小于200bp的读段很难组装出跨越大结构变异的基因区域,也很难检测出RNA水平上的基因融合和可变剪接事件。而第三代测序技术产生的长读段通常足以完整地覆盖这些变异区域,这使得它在组装的质量和连续性上都超过二代测序数据。除此之外,与第一代和第二代测序平台不同,第三代测序平台不再需要PCR扩增,这可以减少GC偏差,并加快测序时间。
但第三代测序技术存在一个明显的缺点。由于信噪比较低,导致其测序结果的错误率相对较高。由于测序工作流程中使用了不同的技术,不同公司推出的测序平台拥有特定的错误模式。Oxford公司推出的Nanopore链测序平台的错误率为6-15%,PacBio公司推出的单分子实时测序(SMRT)平台的错误率通常为13-15%。较高的错误率不利于组装和SNP分析等下游应用,因此降低测序数据的错误率通常是不可或缺的步骤。
目前针对第三代DNA测序数据的计算性纠错方法主要有两种,分别为混合校正策略和自校正策略。混合校正策略使用低错误率的二代测序数据来提高三代测序数据的准确率,但由于其需要同时拥有一个样本的二代和三代测序数据,在测序实验步骤往往会花费更多的时间和成本。
自校正策略避免使用二代测序数据,仅使用三代测序数据自身序列中包含的信息来校正自身。目前存在两种不同的自校正策略:(1)多序列比对:使用三代测序的长读段自身进行比对,比对成功后通过计算读段的一致性序列来执行校正;(2)使用长读段的k-mers构建de Bruijn图。这种方法先使用部分高质量的长读段构建图,之后将其余长读段逐步锚定在图中,通过遍历寻找允许将长读段锚定区域链接在一起的路径,来校正未锚定区域。
以上现有技术存在如下缺陷:通常导致读长缩短,削弱三代测序的长读长带来的优势;纠错时通常会舍弃难以矫正的片段,导致部分测序结果丢失;在大规模基因组上的纠错效果不好,不能大幅降低错误率;序列比对和一致性计算的步骤耗时长,导致整个纠错过程速度慢;自校正策略需要测序数据满足一定深度的限制才能生效。
发明内容
本发明的目的在于克服背景技术中所述的问题,减少输出读段的错误率,而提供一种基于深度学习的第三代测序数据的自校正纠错方法。
实现本发明目的的技术方案是:
一种基于深度学习的第三代测序数据的自校正纠错方法,包括如下步骤:
1)对第三代DNA测序数据进行质量控制,得到高质量的测序序列,具体是:
1-1)获取原始测序数据的碱基质量分数和序列质量分数,并利用统计分析手段计算其GC含量、序列重复级别;
1-2)对各项条件设定最低阈值,筛选出高于阈值部分的序列,视为高质量的测序序列;
2)将步骤1)得到的高质量测序序列与其对应的参考基因组进行比对,得到比对序列MSA;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210380222.5/2.html,转载请声明来源钻瓜专利网。