[发明专利]一种三代测序数据的比对方法在审
申请号: | 202210252334.2 | 申请日: | 2022-03-15 |
公开(公告)号: | CN114708911A | 公开(公告)日: | 2022-07-05 |
发明(设计)人: | 张函槊;张成胜 | 申请(专利权)人: | 北京基石生命科技有限公司 |
主分类号: | G16B30/10 | 分类号: | G16B30/10;G16B50/00;G16B20/30;G16B45/00 |
代理公司: | 北京纪凯知识产权代理有限公司 11245 | 代理人: | 闫书宁 |
地址: | 100195 北京市海淀区杏石口*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 三代测 序数 方法 | ||
本发明公开了一种三代测序数据的比对方法。该方法包括如下步骤:用三代比对软件将三代测序数据比对到参考基因组,获得比对结果;将三代测序数据转换为二代比对软件可以使用的短序列格式,同时对短序列信息进行编码,得到相对位置信息;用二代比对软件将短序列比对到参考基因组,获得比对结果;根据比对位置信息和相对位置信息,将序列还原为三代测序数据的比对结果;将比对位置信息进行交叉验证分析,获得的交叉验证结果通过加权投票的方法整合,得到最终的比对结果。实验证明,采用本发明提供的方法比对三代测序数据,比对准确率显著提高。本发明具有重要的应用价值。
技术领域
本发明属于生物信息学领域,具体涉及一种三代测序数据的比对方法,尤其涉及一种使用第三代测序技术获得转录组测序数据的比对方法。
背景技术
全长转录组测序是使用第三代测序技术获得mRNA全长序列的技术。三代测序相对于二代测序具有高读长的优势,其读长可以完整覆盖绝大部分转录本自身长度,得到完整的转录本测序信息,避免了二代测序短读长拼接造成的错误,因此,在转录组测序中具有明显优势。
测序序列比对到参考基因组是进行下游生物信息分析的基本过程与前提,比对准确率对下游分析的影响甚大。基于二代mRNA测序数据的比对算法经历了充分的阶段发展与实践检验,目前的主流软件有TOPHAT2、HISAT2、STAR等。基于三代mRNA测序数据的比对算法发展时间较短,相对二代而言仍处于初级阶段,目前的主流软件有GMAP、MINIMAP2、LAST、deSALT等。各个算法在准确性上各有优劣之处,二代与三代算法也受数据限制存在明显差异。二代算法通常在简单映射区域有更高的测序精度和比对准确率,而三代算法在复杂映射区域有更高的比对准确率。因此,如果能同时利用多种算法,并从各算法的结果中提取最优结果,就可以提高比对准确率。
发明内容
本发明的目的是建立一种比对结果更为准确的三代全长转录组测序长序列的比对方法。
本发明首先保护一种三代测序数据的比对方法,可包括如下步骤:
(1)用三代测序数据的比对软件将三代测序数据比对到参考基因组,获得比对结果;
(2)将三代测序数据转换为二代测序数据的比对软件可以使用的短序列格式,同时对短序列信息进行编码,得到相对位置信息;
(3)用二代测序数据的比对软件将步骤(2)获得的短序列比对到参考基因组,获得比对结果,比对结果包括比对位置信息;
(4)根据步骤(3)得到的比对位置信息和步骤(2)得到的相对位置信息,将序列还原为三代测序数据的比对结果;
(5)将步骤(1)和步骤(4)得到的比对位置信息进行交叉验证分析;
(6)将步骤(5)获得的交叉验证结果通过加权投票的方法整合,得到最终的比对结果。
上述比对方法中,所述三代测序数据可为三代全长转录组测序长序列。
上述比对方法中,所述步骤(1)中,三代测序数据的比对软件可为软件GMAP、软件MINIMAP2、软件LAST和软件deSALT中的至少一种。
上述比对方法中,所述步骤(2)中,所述将三代测序数据转换为二代测序数据的比对软件可以使用的短序列格式可为采用指定或随机步长滑窗的方法将三代测序数据的长序列转换为指定或随机长度的若干短序列。
上述比对方法中,所述步骤(2)和步骤(3)中,二代测序数据的比对软件可为软件HISAT2、软件STAR和软件TOPHAT2中的至少一种。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京基石生命科技有限公司,未经北京基石生命科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210252334.2/2.html,转载请声明来源钻瓜专利网。