[发明专利]基于PacBio全长转录组测序数据的质控方法有效
申请号: | 201811641409.6 | 申请日: | 2018-12-29 |
公开(公告)号: | CN109817277B | 公开(公告)日: | 2022-03-18 |
发明(设计)人: | 郑洪坤;许国路;杨春鹤;张雪川 | 申请(专利权)人: | 北京百迈客生物科技有限公司 |
主分类号: | G16B20/30 | 分类号: | G16B20/30 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王文君;陈征 |
地址: | 101300 北京市顺义区南*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 pacbio 全长 转录 序数 方法 | ||
本发明提供了基于PacBio全长转录组测序数据的质控方法,包括步骤:1)利用IsoSeq分析流程从原始PacBio全长转录组测序数据得到高质量和低质量的一致性全长序列;2)基于Illumina测序数据对低质量一致性全长序列进行校正,过滤仍达不到高质量标准的序列;3)合并高质量和校正后符合条件的低质量一致性全长序列,按照以下标准进行过滤:去除由序列嵌合产生的过长序列;去除自身比对结果中存在回文序列的一致性全长序列;去除能被其他一致性全长序列比对到多个位置的序列。通过多个标准过滤一致性全长序列中可能存在的嵌合序列,降低最终转录组中的假阳性结果比例,提高后续转录组相关分析结果的准确性。
技术领域
本发明涉及生物信息学技术领域,具体地说,涉及一种基于PacBio全长转录组测序数据的质控方法,用于过滤PacBio全长转录组测序数据中的嵌合序列。
背景技术
转录组是连接基因组遗传信息与生物功能的蛋白质组的纽带,转录水平的调控是最重要也是目前研究最广泛的生物体调控方式,转录组研究是理解生命过程必不可少的工具之一。转录组测序能够对样品任意时间点或任意条件下的转录组进行测序,动态反映基因转录水平,同时鉴定和定量稀有转录本和正常转录本,并且提供样品特异的转录本序列结构信息。
然而基于第二代高通量测序平台的测序技术往往不能准确得到或组装出完整转录本,无法准确识别isoform及等位基因表达的转录本,使人们难以理解这一生命活动更深层次的含义。基于PacBio SMRT单分子实时测序技术的全长转录组测序无须打断RNA片段,该平台的超长读取包含了单条完整转录本序列信息,后期分析无需组装即可得到完整的转录本。
通过PacBio测序技术获取全长转录组的分析过程主要包括全长序列识别、isoform水平聚类得到一致性序列和一致性序列polishing几个步骤。分析过程中因为测序错误无法正确识别出接头序列,原始聚合酶序列中的子序列通过接头序列相连形成嵌合序列。在全长序列识别步骤通过判断序列中间是否存在引物序列过滤掉部分嵌合序列(见图1),但仍有部分嵌合序列因无法正确识别到引物序列未被过滤。特别是在没有测序物种参考基因组的情况下,无法通过与参考基因组的比对信息确定可能的嵌合序列。这些无法识别出来的嵌合序列保留到最终的转录组中,会对后面转录组相关分析结果的准确性产生很大影响。为了提高转录组测序数据的准确性,有必要进一步除去现有技术中无法识别出来的嵌合序列,但目前未见相关方法报道。
发明内容
本发明的目的是提供一种基于PacBio全长转录组测序数据的质控方法,用于过滤PacBio全长转录组测序数据中的嵌合序列,以提高转录组测序数据的准确性。
为了实现本发明目的,本发明的技术方案基于PacBio全长转录组测序数据的质控方法,包括步骤:
(1)利用IsoSeq分析流程从原始PacBio全长转录组测序数据得到高质量和低质量的一致性全长序列;
本领域公知的是,所述的高质量是根据序列的平均准确率进行判断的,准确率阈值是0.99;
(2)基于Illumina测序数据对低质量一致性全长序列进行校正,过滤仍达不到高质量标准的序列;
(3)合并高质量和校正后符合条件的低质量一致性全长序列,去除由序列嵌合产生的过长序列;
(4)去除自身比对结果中存在回文序列的一致性全长序列;
(5)去除能被其他一致性全长序列比对到多个位置的嵌合序列。
本发明的质控方法中,步骤(1)所述高质量和低质量的一致性全长序列是通过识别全长序列中间的引物序列初步过滤确定有引物序列相连的嵌合序列,并进一步处理(具体方法为本领域常规技术,包括:1)根据序列相似性对所有全长非嵌合序列进行聚类得到一致性序列;2)利用原始数据对一致性序列进行纠错。)得到经过打磨纠错后的高质量和低质量的一致性全长序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百迈客生物科技有限公司,未经北京百迈客生物科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811641409.6/2.html,转载请声明来源钻瓜专利网。