[发明专利]一种基于新一代测序数据的Indel检测方法有效
申请号: | 201710377194.0 | 申请日: | 2017-05-25 |
公开(公告)号: | CN107229839B | 公开(公告)日: | 2020-05-22 |
发明(设计)人: | 袁细国;许向彦;杨利英;张军英;白俊 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G16B20/30 | 分类号: | G16B20/30;G16B20/20;G16B40/00 |
代理公司: | 西安长和专利代理有限公司 61227 | 代理人: | 黄伟洪 |
地址: | 710071 陕西省*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 新一代 序数 indel 检测 方法 | ||
1.一种基于新一代测序数据的Indel检测方法,其特征在于,所述基于新一代测序数据的Indel检测方法包括以下步骤:
步骤一,利用bwa比对软件对原始的fastq数据做比对,生成sam文件;
步骤二,对discordant.sam文件中的每一对reads提取出比对位置当作一个二维点坐标,对二维点根据设定的阈值进行层次聚类;
步骤三,对hang.sam文件中的每一对reads,取出未正常比对的read,若其比对上的部分在某个聚类单元所代表的范围内,则将read插入聚类单元,经从hang.sam文件中提取出含有变异信息的read;
步骤四,每个聚类单元确定一个变异范围,提取出此变异范围内含有的携带变异信息的reads,根据每一条read比对上的位置和变异的范围截取参考序列上的一段序列,将read和截取下来的参考序列做比对即可确定变异类型,变异位置,以及变异大小;
所述步骤四具体包括:read序列为序列A,截取的参考序列为序列B;从A和B的左端开始比较,遇到第一个碱基不相同的位置即为变异位置,记为q,然后从不相同的位置截取A序列,以A序列剩下的部分作为窗口开始滑动,起始位置为变异位置,每次向右滑动一个距离,窗口的得分函数为窗口内比对上的碱基的个数,若某个位置窗口的得分大于窗口内碱基的总数乘以0.95,则停止滑动,确定变异类型为deletion,记录此时的位置,记为w,w-q即为变异的大小,同理,在参考序列B上同样滑动,若存在某个位置匹配,即可确定变异类型为insertion;
步骤五,将变异类型deletion记为1,insertion记为2,某一个确定的变异可以表示为“1_变异位置_变异大小”;然后利用哈希结构来存储变异;对于某个变异,根据测序的覆盖度设置阈值,当支持此变异的reads个数大于此阈值时,将此变异输出。
2.如权利要求1所述的基于新一代测序数据的Indel检测方法,其特征在于,所述步骤一的sam文件中包括正常比对上pair-end数据、未正常比对的pair-end数据。
3.如权利要求1所述的基于新一代测序数据的Indel检测方法,其特征在于,所述步骤二通过层次聚类并且设定阈值可以自动完成聚类,对每个聚类单元中的所有点求其平均值,聚类单元中含有的点如下:A[a1,b1],B[a2,b2],得到每个聚类单元含有一个范围[a,b],a=(a1+a2)/2,b=(b1+b2)/2,即范围[a,b]内含有变异。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710377194.0/1.html,转载请声明来源钻瓜专利网。