[发明专利]一种基于二代测序数据的反转相关复杂变异检测方法有效
申请号: | 202010081979.5 | 申请日: | 2020-02-06 |
公开(公告)号: | CN111261225B | 公开(公告)日: | 2022-08-16 |
发明(设计)人: | 杨晓飞;卜楠;叶凯;蔺佳栋;梁皓;郭立 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G16B20/20 | 分类号: | G16B20/20;G16B30/10 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 李晓晓 |
地址: | 710049 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 二代 序数 反转 相关 复杂 变异 检测 方法 | ||
1.一种基于二代测序数据的反转相关复杂变异检测方法,其特征在于,包括以下步骤:
步骤1,在滑动窗口内,根据给定的bam文件与选定的参考基因组进行比对,得到PairOrientation异常或者Insert Size异常的Read Pair信号,并以Read Pair信号对不能完全匹配的Read进行Split Read信号分析,得到对应的断点匹配情况;
具体过程为:
首先,在给定的bam文件中划定了一个100万bp大小的窗口;
然后,在这个100万bp大小的窗口中,以Read Pair为单位进行第一次扫描:如果一个Read Pair的Pair Orientation和/或Insert Size信息异常,记录为一个未定的Read Pair信号,并进行聚类;
最后,在这个100万bp大小的窗口中,以单个Read进行第二次扫描:某个Read不能完全比对到reference,则称为Read A,那么分成两段,以Read A两端到中间的方向在64bp范围内与reference比对,如果不能找到Read A的两段和reference比较的最小和最大公共子串,则扩大范围为上次查找范围的四倍范围,并反复进行比对,以找到Read A和reference比较的最小和最大公共子串为止,并记录对应的位置信息;如果没有,则不记录;
步骤2,针对想要寻找的简单变异和复杂变异,建立Split Read信号理论模型;包括反转Split Read信号的模型,反转-删除Split Read信号的模型以及反转-重复Split Read信号的模型;其中,根据反转、反转-删除和反转-重复的理论来建立相对应的Read Pair信号、反转Split Read信号的模型,反转-删除Split Read信号的模型以及反转-重复Split Read信号的模型;
其中反转的信号特点是:Read Pair信号中Pair Orientation有异常;Split Read信号中,如果Read A不能完全比对到reference,Read A分成B、C两段后比对到reference上时,B和C的方向相反;Read A的mate Read D完全比对到reference上,方向为forward和reverse的Read D都至少有一个,且断点信息一致,为反转的准确断点;
反转-删除的信号特点是:Read Pair信号中Pair Orientation有异常;Split Read信号中,如果Read A不能完全比对到reference,Read A分成B、C两段后比对到reference上时,B和C的方向相反;Read A的mate Read D完全比对到reference上,方向为forward和reverse的Read D都至少有一个,且断点信息不一致;
反转-重复的信号特点是Read Pair信号中Pair Orientation有异常;Split Read信号中,如果Read A不能完全比对到reference,Read A分成B、C两段后比对到reference上时,B和C的方向相反;Read A的mate Read D完全比对到reference上,方向为forward和reverse的Read D都至少有一个,且断点信息不一致;
步骤3,将步骤1中得到的断点匹配情况经过步骤2中建立的模型,如果符合某个模型时,记录下相应的变异类型和位置,再判断是否是可信的变异;
具体过程为:
首先,将步骤1中最后得到的断点匹配情况经过步骤2中模型的检验,如果符合,记录变异类型、断点信息;
然后,判断可能是同个变异的多个Split Read信号中,如果断点位置在该Read的左半段的Read数量和断点位置在该Read的左半段的Read数量都大于等于1,那么认为该变异报告是可信的;
最后,输出可信的变异。
2.根据权利要求1所述的一种基于二代测序数据的反转相关复杂变异检测方法,其特征在于,步骤1中,用聚类算法进行Read Pair信号分析,得到Pair Orientation异常或者Insert Size异常的Read Pair信号;
用模式增长算法进行Split read信号分析,得到不能完全匹配的Read的断点匹配情况。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010081979.5/1.html,转载请声明来源钻瓜专利网。