[发明专利]一种高密度遗传图谱的构建方法有效
申请号: | 201710804279.2 | 申请日: | 2017-09-08 |
公开(公告)号: | CN107644150B | 公开(公告)日: | 2021-03-19 |
发明(设计)人: | 蔡庆乐;唐耀华;何荣军 | 申请(专利权)人: | 杭州和壹基因科技有限公司 |
主分类号: | G16B40/00 | 分类号: | G16B40/00;G16B20/20 |
代理公司: | 杭州中成专利事务所有限公司 33212 | 代理人: | 唐银益 |
地址: | 310051 浙江省杭州市滨*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 高密度 遗传 图谱 构建 方法 | ||
1.一种高密度遗传图谱的构建方法,其特征在于,它包括以下步骤:
1)根据遗传分离群体高通量测序数据中得到的SNP标记,对SNP标记进行基因型分型和过滤,再计算两两之间的重组率;
2)利用步骤1)算得的重组率,采用分层聚类算法根据前述遗传分离群体的染色体数对SNP标记进行分组,得到与染色体数对应的连锁群;
3)采用最小生成树算法对SNP标记进行排序,对排序后的SNP标记采用最大期望算法进行补缺失,采用邻近平均算法进行纠错处理,然后采用k-opt算法对排序进行优化,最后计算遗传距离得到遗传图谱;
所述采用邻近平均算法进行纠错处理的具体方法如下:
3.4.1)若第i个样本第j个SNP标记基因型为A,则p(Ai,j)=1;若该标记基因型为B,则p(Ai,j)=0;所述的p(Ai,j)为基因型为A的可能性;
3.4.2)与第i个样本第j个SNP标记邻近标记的基因型为A的平均可能性由下式算得:
3.4.3)若E(Ai,j)-p(Ai,j)0.75,则认为该SNP标记是可疑的,重新记为缺失,反之则接受该标记。
2.根据权利要求1所述的高密度遗传图谱的构建方法,其特征在于,所述遗传分离群体为性状分离群体,包括FI、F2、RILd、BC1、DH、Hap中的一种或多种。
3.根据权利要求1所述的高密度遗传图谱的构建方法,其特征在于,所述步骤1)包括以下步骤:
1.1)根据亲本的基因型及子代的基因型对SNP标记进行基因型分型;
1.2)使用卡方检验、缺失率对SNP标记进行过滤,得到高质量的SNP标记;
1.3)利用样本基因型估计任意两个SNP标记之间的重组率。
4.根据权利要求3所述的高密度遗传图谱的构建方法,其特征在于,所述步骤1.2)具体方法:
1.2.1)使用卡方检验过滤SNP标记的方法:
统计子代中每一种基因型的样本个数,利用卡方检验判断子代各基因型包含的样本量是否符合孟德尔分离比,如果符合,则保留这一个SNP标记,如果不符合,则过滤该SNP标记;
1.2.2)基于缺失率过滤SNP标记的方法:
基于样本缺失率:统计所有样本中某一个SNP标记的缺失与否,如果缺失率小于设定的阈值,则保留该SNP标记,反之则过滤该SNP标记,缺失率=缺失样本数/总样本;
基于SNP标记缺失率:统计某一个样本缺失的SNP标记总数,如果SNP标记缺失率小于设定的阈值,则保留该样本,反之则过滤该样本,缺失率=缺失的SNP标记数/总SNP标记数。
5.根据权利要求4所述的高密度遗传图谱的构建方法,其特征在于,步骤1.2.2)的缺失率设定的默认阈值为15%,SNP标记缺失率的默认阈值为30%。
6.根据权利要求3所述的高密度遗传图谱的构建方法,其特征在于,所述步骤1.3)具体步骤为:
1.3.1)以i代表第i个SNP标记,j代表第j个SNP标记,Ri,j表示两个SNP标记发生重组的可能性;
1.3.2)如果两个SNP标记靠的很近,没有发生重组,那么Ri,j=0.0;
1.3.3)如果两个SNP标记属于不同的连锁群,则Ri,j=0.5;两个SNP标记靠的越近,发生重组的可能性越低,即两个SNP标记连锁的可能性越高;
1.3.4)统计样本中两个SNP标记重组的基因型样本数量,重组率Ri,j=重组基因型样本数量/样本总数量;其中,重组基因型样本表示子代基因型与亲本基因型不同的样本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州和壹基因科技有限公司,未经杭州和壹基因科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710804279.2/1.html,转载请声明来源钻瓜专利网。