[发明专利]一种适用于混池基因定位的方法及系统有效
申请号: | 201910811291.5 | 申请日: | 2019-08-30 |
公开(公告)号: | CN110444253B | 公开(公告)日: | 2023-09-29 |
发明(设计)人: | 黄龙 | 申请(专利权)人: | 上海美吉生物医药科技有限公司 |
主分类号: | G16B20/20 | 分类号: | G16B20/20;G16B50/30 |
代理公司: | 北京哌智科创知识产权代理事务所(普通合伙) 11745 | 代理人: | 何浩 |
地址: | 200120 上海市浦东新区中国(上海)*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 适用于 基因 定位 方法 系统 | ||
1.一种适用于混池基因定位的方法,其特征在于,所述方法包括:
标记过滤,基于预设标记质量信息,对分子标记数据进行过滤,获取符合预设质量要求的分子标记数据;
统计计算,根据群体情况,对过滤后获取的分子标记数据进行统计计算,获得统计信息;
结果整理,对获得的统计信息进行整理,提取基因信息;
其特征在于,所述标记过滤包括:
过滤等位基因数量2个的SNP和INDEL标记,过滤每个样本最低深度2X,最高深度100X的分子标记,依据群体类型和亲本信息进行过滤,如果群体类型是F2群体,仅保留两个亲本纯和且有差异的分子标记,如果群体类型是F1群体,则保留仅有两个亲本杂合的分子标记;
所述标记过滤通过Perl语言完成,形成最终的分子标记数据分析统计表;
所述标记过滤包括以下步骤:
过滤两个亲本和测序混池的测序深度低于10X,或者大于100X的分子标记;
根据材料的群体类型进行过滤,如果是F2群体则过滤两个亲本基因型一致的分子标记,如果是F1群体则过滤两个亲本均为纯和的分子标记;
针对混池,依据亲本和混池的性状关系进行过滤,过滤不符合亲本混池性状关系的分子标记;
针对过滤完成的分子标记,计算每个分子标记的基因型频率;其中,基因型频率的计算公式如下:
其中,Mutation Allele Depth为两个亲本中突变型亲本的基因型在子代中的测序深度,Reference Allele Depth为野生型亲本在子代中的测序深度;
其特征在于,所述统计计算包括:
计算两个混池中基因型频率的欧式距离,欧式距离的计算不考虑群体的类型,所有的数据计算方式一致;计算两个混池的G统计量,G统计量的计算不考虑群体类型,所有的数据计算方法一致;
在差异基因型频率的计算过程中,对单个变异位点进行计算时,如果是F1群体则将与参考基因组不一致的基因学习型频率放在分子,两个混池的基因型频率相减后的绝对值为最终的结果;如果是F2群体则选择突变型亲本的基因型频率为分子,两个混池的基因型频率相减后的值为最终结果;
所有的deltaindex值均为突变型减野生型;滑窗计算按照基因组长度与混池大小进行,利用最优无偏线性估计进行滑窗,滑窗过程中对每个窗口的变异位点数量进行统计,当一个窗口的变异位点个数小于10个时,取全基因组平均值作为窗口的最终结果;利用群体混池大小和个数进行bootstrap计算,取置信度0.05所对应的数据作为阈值进行分析;
所述统计计算包括以下步骤:
基于式(1)计算各个混池的deltaindex值,基于式(3)计算各个混池的ED值,基于式(2)计算各个混池的G值;
deltaindex=allelemutation-alleleindex (1)
基于当前各个混池的深度比例,利用R语言随机生成1000个的随机混池模拟数据,分析模拟数据的分位数,依据0.95的分位数确定真实数据的阈值,筛选差异的区域和位点;
计算部分利用R语言完成,选择至少两个方法定位到的区域作为最终定位的结果;
所述结果整理包括:
根据筛选得到的变异位点,参考基因组上连续出现5个以上的SNP,为关联区域,提取区域内的变异位点和功能,筛选其中非同义突变的位点;
基于参考基因组数据获得的基因位置信息和变异检测过程中的SNP注释信息,提取区域内的基因功能和变异位点的基因功能;
基因组数据的基因位置信息由基因组组装过程获得,区域内的功能变异由SNPefff软件分析获得。
2.如权利要求1所述的适用于混池基因定位的方法,其特征在于,所述方法还包括:
利用slurm和sge的任务管理系统,将统计计算的几种方法并行运行,并最终选择至少两个方法得到的结果取交集,获得最终的分析结果。
3.一种适用于混池基因定位的系统,其特征在于,所述系统包括:
标记过滤模块,用于基于预设标记质量信息,对分子标记数据进行过滤,获取符合预设质量要求的分子标记数据;
统计计算模块,用于根据群体情况,对过滤后获取的分子标记数据进行统计计算,获得统计信息;
结果整理模块,用于对获得的统计信息进行整理,提取基因信息;
所述标记过滤模块具体用于:
过滤等位基因数量2个的SNP和INDEL标记,过滤每个样本最低深度2X,最高深度100X的分子标记,依据群体类型和亲本信息进行过滤,如果群体类型是F2群体,仅保留两个亲本纯和且有差异的分子标记,如果群体类型是F1群体,则保留仅有两个亲本杂合的分子标记;
所述标记过滤模块通过Perl语言实现,形成最终的分子标记数据分析统计表;其进行标记过滤的过程包括以下步骤:
过滤两个亲本和测序混池的测序深度低于10X,或者大于100X的分子标记;
根据材料的群体类型进行过滤,如果是F2群体则过滤两个亲本基因型一致的分子标记,如果是F1群体则过滤两个亲本均为纯和的分子标记;
针对混池,依据亲本和混池的性状关系进行过滤,过滤不符合亲本混池性状关系的分子标记;
针对过滤完成的分子标记,计算每个分子标记的基因型频率;其中,基因型频率的计算公式如下:
其中,Mutation Allele Depth为两个亲本中突变型亲本的基因型在子代中的测序深度,Reference Allele Depth为野生型亲本在子代中的测序深度;
所述统计计算模块具体用于:
计算两个混池中基因型频率的欧式距离,欧式距离的计算不考虑群体的类型,所有的数据计算方式一致;计算两个混池的G统计量,G统计量的计算不考虑群体类型,所有的数据计算方法一致;
在差异基因型频率的计算过程中,对单个变异位点进行计算时,如果是F1群体则将与参考基因组不一致的基因学习型频率放在分子,两个混池的基因型频率相减后的绝对值为最终的结果;如果是F2群体则选择突变型亲本的基因型频率为分子,两个混池的基因型频率相减后的值为最终结果;
所有的deltaindex值均为突变型减野生型;滑窗计算按照基因组长度与混池大小进行,利用最优无偏线性估计进行滑窗,滑窗过程中对每个窗口的变异位点数量进行统计,当一个窗口的变异位点个数小于10个时,取全基因组平均值作为窗口的最终结果;利用群体混池大小和个数进行bootstrap计算,取置信度0.05所对应的数据作为阈值进行分析;
所述统计计算模块进行计算的过程包括以下步骤:
基于式(1)计算各个混池的deltaindex值,基于式(3)计算各个混池的ED值,基于式(2)计算各个混池的G值;
deltaindex=allelemutation-alleleindex (1)
基于当前各个混池的深度比例,利用R语言随机生成1000个的随机混池模拟数据,分析模拟数据的分位数,依据0.95的分位数确定真实数据的阈值,筛选差异的区域和位点;
计算部分利用R语言完成,选择至少两个方法定位到的区域作为最终定位的结果;
所述结果整理模块具体用于:
根据筛选得到的变异位点,参考基因组上连续出现5个以上的SNP,为关联区域,提取区域内的变异位点和功能,筛选其中非同义突变的位点;
基于参考基因组数据获得的基因位置信息和变异检测过程中的SNP注释信息,提取区域内的基因功能和变异位点的基因功能;
基因组数据的基因位置信息由基因组组装过程获得,区域内的功能变异由SNPefff软件分析获得;
所述适用于混池基因定位的系统利用slurm和sge的任务管理系统,将统计计算的几种方法并行运行,并最终选择至少两个方法得到的结果取交集,获得最终的分析结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海美吉生物医药科技有限公司,未经上海美吉生物医药科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910811291.5/1.html,转载请声明来源钻瓜专利网。