[发明专利]染色体跨度的单体型图及其构建方法有效
申请号: | 201510401025.7 | 申请日: | 2015-07-09 |
公开(公告)号: | CN105046105B | 公开(公告)日: | 2018-02-02 |
发明(设计)人: | 赵洪卫 | 申请(专利权)人: | 天津诺禾医学检验所有限公司 |
主分类号: | G06F19/18 | 分类号: | G06F19/18;C12N15/11 |
代理公司: | 北京康信知识产权代理有限责任公司11240 | 代理人: | 赵囡囡,吴贵明 |
地址: | 301700 天津市武*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 染色体 跨度 体型 及其 构建 方法 | ||
技术领域
本发明涉及单体型图谱构建领域,具体而言,涉及一种染色体跨度的单体型图及其构建方法。
背景技术
SNP是指在染色体基因组水平上单个核苷酸的变异引起的DNA序列多态性。位于一条染色体上的或某一区域的一组SNP等位位点被称为单体型(haplotype)。单体型是单倍体型的简称,是指在同一染色体上进行共同遗传的多个基因座上等位基因的组合。按照某一指定基因座上基因重组发生的数量,单体型甚至可以指至少两个基因座或整个染色体。高质量的单体型在物种进化历史、表型性状的关联分析等方面有重要的价值。
目前,国内在单体型的构建方面,采用的方法主要是基于对长片段序列(长片段序列是指从头测到尾的几Kb~几十Kb的片段)、大片段文库(大片段文库是指2K、5K、10K或20K等长度的mate-pair文库,一般进行双末端测序,例如,用PE100的测序策略,那么测出的数据是首端100bp和尾端的100bp)、fosmid文库等的测序数据组装构建单体型,其准确性和分辨率非常高,但是所构建的单体型的长度仅有几百Kb~1Mb。
此外,也有染色体跨度的单体型构建的报道,但这种染色体跨度的单体型的构建方法是基于染色体显微切割或者单精子等单倍体测序来构建的,其构建方法具体如下:1)首先,通过显微切割获得微量的单倍体DNA遗传物质;2)采用MALBAC或者多重置换扩增(MDA)等全基因组扩增技术提高DNA的起始量;3)构建小片段文库,进行二代测序获得短序列数据(PE reads);4)短序列数据(PE reads)与已经发表的参考基因组比对,检测单核苷酸位点多态性(SNPs),构建单倍体的单体型。
上述染色体跨度的单体型构建方法,对于实验技术和实验仪器有着很高的要求,在取材方面非常受限,只能用于一些符合严格减数分裂的物种。最重要的是,为了达到建库的最低起始量,需要对DNA进行扩增。在扩增过程中会引入一些错误,并且随着不断的扩增会导致误差的进一步放大。而且,扩增过程中的碱基偏好性都会影响SNP检测的准确性和全面性,从而对最终单体型构建的结果造成一定的误差。此外,上述方法整个实验过程时间较长,通常需要3个月以上。
因此,仍需要对现有技术进行改进,以提供一种适用范围广、准确性高、染色体跨度大的个体单体型的构建方法。
发明内容
本发明的主要目的在于提供一种染色体跨度的单体型图及其构建方法,以提供一种适用范围广、准确性高以及染色体跨度大的个体单体型图的构建方法。
为了实现上述目的,根据本发明的一个方面,提供了一种染色体跨度的单体型图的构建方法,该构建方法包括:步骤S1,对包含待测样本基因组交联位点的测序文库进行测序,得到PE reads;步骤S2,将PE reads分别与参考基因组上的序列进行第一次比对,得到第一比对结果;步骤S3,根据第一比对结果构建来源于待测样本的PE reads的一致性序列,获得高质量的SNP位点;以及步骤S4,根据所获取的高质量的SNP位点对每一条reads进行筛选,并提取至少含有2个杂合SNP位点的reads;并利用杂合SNP位点构建染色体跨度的单体型图。
进一步地,在步骤S2之前,构建方法还包括判断测序文库是否合格的步骤;判断测序文库是否合格的步骤包括:步骤a,抽取部分PE reads作为待质控文库;步骤b,将待质控文库与参考基因组上的序列进行第二次比对,得到第二比对结果;步骤c,利用第二比对结果计算待质控文库的插入片段在参考基因组上的跨度;步骤d,若跨度大于10kb,且跨度大于10kb的插入片段在待质检文库中的比例为50%以上,则判断测序文库合格。
进一步地,在步骤S1之后,以及在步骤S2之前,构建方法还包括对PE reads进行质控的步骤;质控的步骤包括:检测PE reads中是否存在外源样本污染,和/或对PE reads进行低质量数据过滤。
进一步地,在步骤S2之前,还包括对参考基因组上的序列进行前处理的步骤;前处理的步骤包括:基于BWA和SAMtools对参考基因组上的序列进行索引文件的构建;对参考基因组上的序列的长度、碱基含量和空缺的比例进行统计;以及获取构建测序文库时所使用的限制性内切酶在参考基因组的序列上的分布位置和数目。
进一步地,步骤S2包括:利用BWA软件的mem模块,将PE reads通过第一次比对分别比对到建好索引文件的参考基因组的序列上,得到第一比对结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津诺禾医学检验所有限公司,未经天津诺禾医学检验所有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510401025.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种扎袋锁具及具有该扎袋锁具的运钞袋
- 下一篇:用于外包装的拎袋
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用