[发明专利]一种基于滤波策略的高容错基因组复杂结构变异检测方法有效
申请号: | 202010197240.0 | 申请日: | 2020-03-19 |
公开(公告)号: | CN111445950B | 公开(公告)日: | 2022-10-25 |
发明(设计)人: | 张选平;刘佳琦;王嘉寅;陈恒伟;黄毅 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G16B20/20 | 分类号: | G16B20/20;G16B40/20;G06K9/62 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 高博 |
地址: | 710049 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 滤波 策略 容错 基因组 复杂 结构 变异 检测 方法 | ||
本发明公开了一种基于滤波策略的高容错基因组复杂结构变异检测方法,对SAM格式的输入文件进行预处理,遍历最优质量比对读段中的CIGAR字段;根据比对后的CIGAR字段和变异分数计算准则,计算出各个位点在当前读段对应的变异分数,并将其预先保存在每个位点的变异分数集合中;统计每个位点的变异分数集合中的平均数当作该位点最终的变异分数并得到此样本的变异分数函数;对变异分数函数进行卡尔曼或高斯滤波,得到滤波降噪后的变异分数函数;依照滤波后的变异分数函数,设定阈值并分离出结构变异区域,提取特征;训练支持向量机(SVM)模型,再用训练好的SVM模型对结构变异区域分类并得到复杂indel结果集。本发明解决测序错误对结构变异的确定产生的干扰。
技术领域
本发明属于第三代核酸序列测序(Single Molecule Real Time,SMRT)技术领域,具体涉及一种基于滤波策略的高容错基因组复杂结构变异检测方法。
背景技术
复杂indel(Complex insertion-deletion)是一种在人群中相对罕见但在肿瘤基因组中较多存在的基因组结构变异。复杂indel表现为在某一基因上DNA片段发生了缺失变异,由于DNA分子的自我修复机制,随后在同一位点上插入了其他的DNA片段并且插入片段有可能发生倒置的一种复合变异。目前已发现的复杂indel的表现形式就有数十种。作为一种重要结构变异,复杂indel的检测是下游分析肿瘤易感性与表型相关性等研究的基础。扩大复杂indel检测范围不仅有助于确定复杂indel的基因型及其表型效应,而且也能够推动研究肿瘤复杂indel之间的关系,加快个性化医疗的步伐。
检测复杂indel主要通过基因组测序数据。目前已有的复杂indel检测算法主要有三种,分别是INDELseek、Pindel-C和SV-Bay。INDELseek对比对质量字段进行重译选择出其中变异位点在读段内进行聚类,将聚类出的变异区域按照阈值进行过滤选择出复杂indel。Pindel-C找出一端完美比对另一端不能完美比对的读对,使用模式增长算法和分裂split-read的思想,筛选出不能完美比对的读段,并将该读段作为一个复杂indel发生的可疑区域。SV-Bay主要利用贝叶斯方法识别结构变异。
但是,上述算法都只适用于第二代测序数据,第二代测序数据的单一读段长度仅有100bps。读段长度短也意味着读段携带的信息较少,会影响复杂indel的检测效果,第三代测序数据具有读段长度长的显著优势。然而,使用第三代测序数据来检测复杂indel,主要的阻碍来自于第三代测序数据的读段高错误率。高错误率导致传统算法在处理读段时,被迫丢弃大量的高错误率的读段,或对读段做出剪裁等,以期获得错误率低的读段数据。此时,传统算法主要有以下两方面的不足:
(1)在检测结构变异时,测序数据中的测序错误会对结构变异的识别产生干扰,导致算法误把本该忽略的测序错误当作结构变异,或者将本该识别出来的结构变异当作测序错误而忽略;
(2)在区分不同类型的结构变异时,如区分复杂indel和其他结构变异时,测序错误会干扰正确的分类。
发明内容
本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种基于滤波策略的高容错基因组复杂结构变异检测方法,解决测序错误对结构变异的确定产生的干扰,以及解决测序错误对复杂indel和其他结构变异的区分产生的干扰。
本发明采用以下技术方案:
一种基于滤波策略的高容错基因组复杂结构变异检测方法,包括以下步骤:
S1、对SAM格式的输入文件进行预处理,遍历最优质量比对读段中的CIGAR字段;
S2、根据比对后的CIGAR字段和变异分数计算准则,计算出各个位点在当前读段对应的变异分数,并将其预先保存在每个位点的变异分数集合中;
S3、统计每个位点的变异分数集合中的平均数当作该位点最终的变异分数并得到此样本的变异分数函数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010197240.0/2.html,转载请声明来源钻瓜专利网。