[发明专利]一种基于新一代测序数据的Indel检测方法有效

专利信息
申请号: 201710377194.0 申请日: 2017-05-25
公开(公告)号: CN107229839B 公开(公告)日: 2020-05-22
发明(设计)人: 袁细国;许向彦;杨利英;张军英;白俊 申请(专利权)人: 西安电子科技大学
主分类号: G16B20/30 分类号: G16B20/30;G16B20/20;G16B40/00
代理公司: 西安长和专利代理有限公司 61227 代理人: 黄伟洪
地址: 710071 陕西省*** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 新一代 序数 indel 检测 方法
【权利要求书】:

1.一种基于新一代测序数据的Indel检测方法,其特征在于,所述基于新一代测序数据的Indel检测方法包括以下步骤:

步骤一,利用bwa比对软件对原始的fastq数据做比对,生成sam文件;

步骤二,对discordant.sam文件中的每一对reads提取出比对位置当作一个二维点坐标,对二维点根据设定的阈值进行层次聚类;

步骤三,对hang.sam文件中的每一对reads,取出未正常比对的read,若其比对上的部分在某个聚类单元所代表的范围内,则将read插入聚类单元,经从hang.sam文件中提取出含有变异信息的read;

步骤四,每个聚类单元确定一个变异范围,提取出此变异范围内含有的携带变异信息的reads,根据每一条read比对上的位置和变异的范围截取参考序列上的一段序列,将read和截取下来的参考序列做比对即可确定变异类型,变异位置,以及变异大小;

所述步骤四具体包括:read序列为序列A,截取的参考序列为序列B;从A和B的左端开始比较,遇到第一个碱基不相同的位置即为变异位置,记为q,然后从不相同的位置截取A序列,以A序列剩下的部分作为窗口开始滑动,起始位置为变异位置,每次向右滑动一个距离,窗口的得分函数为窗口内比对上的碱基的个数,若某个位置窗口的得分大于窗口内碱基的总数乘以0.95,则停止滑动,确定变异类型为deletion,记录此时的位置,记为w,w-q即为变异的大小,同理,在参考序列B上同样滑动,若存在某个位置匹配,即可确定变异类型为insertion;

步骤五,将变异类型deletion记为1,insertion记为2,某一个确定的变异可以表示为“1_变异位置_变异大小”;然后利用哈希结构来存储变异;对于某个变异,根据测序的覆盖度设置阈值,当支持此变异的reads个数大于此阈值时,将此变异输出。

2.如权利要求1所述的基于新一代测序数据的Indel检测方法,其特征在于,所述步骤一的sam文件中包括正常比对上pair-end数据、未正常比对的pair-end数据。

3.如权利要求1所述的基于新一代测序数据的Indel检测方法,其特征在于,所述步骤二通过层次聚类并且设定阈值可以自动完成聚类,对每个聚类单元中的所有点求其平均值,聚类单元中含有的点如下:A[a1,b1],B[a2,b2],得到每个聚类单元含有一个范围[a,b],a=(a1+a2)/2,b=(b1+b2)/2,即范围[a,b]内含有变异。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710377194.0/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top