[发明专利]染色体跨度的单体型图及其构建方法有效
申请号: | 201510401025.7 | 申请日: | 2015-07-09 |
公开(公告)号: | CN105046105B | 公开(公告)日: | 2018-02-02 |
发明(设计)人: | 赵洪卫 | 申请(专利权)人: | 天津诺禾医学检验所有限公司 |
主分类号: | G06F19/18 | 分类号: | G06F19/18;C12N15/11 |
代理公司: | 北京康信知识产权代理有限责任公司11240 | 代理人: | 赵囡囡,吴贵明 |
地址: | 301700 天津市武*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 染色体 跨度 体型 及其 构建 方法 | ||
1.一种染色体跨度的单体型图的构建方法,其特征在于,所述构建方法包括:
步骤S1,对包含待测样本基因组交联位点的测序文库进行测序,得到PE reads;
步骤S2,将所述PE reads分别与参考基因组上的序列进行第一次比对,得到第一比对结果;
步骤S3,根据所述第一比对结果构建所述PE reads的一致性序列,获得高质量的SNP位点;以及
步骤S4,根据获取的所述高质量的SNP位点对所述PE reads中的每一条reads进行筛选,获得至少含有2个杂合SNP位点的reads;利用所述杂合SNP位点构建所述染色体跨度的单体型图;
在所述步骤S2之前,所述构建方法还包括对所述参考基因组上的序列进行前处理的步骤,所述前处理的步骤包括:
基于BWA和SAMtools对所述参考基因组上的序列进行索引文件的构建;
对所述参考基因组上的序列的长度、碱基含量和空缺的比例进行统计;以及
获取构建所述测序文库时所使用的限制性内切酶在所述参考基因组序列上的分布位置和数目。
2.根据权利要求1所述的构建方法,其特征在于,在所述步骤S2之前,所述构建方法还包括判断所述测序文库是否合格的步骤,所述判断测序文库是否合格的步骤包括:
步骤a,抽取部分所述PE reads作为待质控文库;
步骤b,将所述待质控文库与所述参考基因组上的序列进行第二次比对,得到第二比对结果;
步骤c,利用所述第二比对结果计算所述待质控文库的插入片段在所述参考基因组上的跨度;以及
步骤d,若所述跨度大于10kb,且所述跨度大于10kb的插入片段在所述待质控文库中所有插入片段总数的比例为50%以上,则判断所述测序文库合格。
3.根据权利要求1或2所述的构建方法,其特征在于,在所述步骤S1之后,以及在所述步骤S2之前,所述构建方法还包括对PE reads进行质控的步骤;所述质控的步骤包括:
检测所述PE reads中是否存在外源样本污染,和/或
对所述PE reads进行低质量数据过滤。
4.根据权利要求1所述的构建方法,其特征在于,所述步骤S2包括:
利用BWA软件的mem模块,将所述PE reads通过第一次比对分别比对到建好所述索引文件的所述参考基因组的序列上,得到所述第一比对结果。
5.根据权利要求4所述的构建方法,其特征在于,所述步骤S2在得到所述第一比对结果后,还包括对所述PE reads进行覆盖均匀性检测的步骤,所述覆盖均匀性检测的步骤包括:
检测在不同测序深度下,所述PE reads对所述参考基因组的覆盖程度和覆盖深度,所述覆盖程度是指所述PE reads覆盖所述参考基因组上的序列的长度与所述参考基因组上的序列的总长度的比值;所述覆盖深度是指所述参考基因组相应位置被所述PE reads覆盖到的次数。
6.根据权利要求1所述的构建方法,其特征在于,所述步骤S3包括:
根据所述第一比对结果,利用SAMtools软件构建所述PE reads的一致性序列,以及
获取所述一致性序列中存在的所述高质量的SNP位点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津诺禾医学检验所有限公司,未经天津诺禾医学检验所有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510401025.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种扎袋锁具及具有该扎袋锁具的运钞袋
- 下一篇:用于外包装的拎袋
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用