[发明专利]一种适用于混池基因定位的方法及系统有效

专利信息
申请号: 201910811291.5 申请日: 2019-08-30
公开(公告)号: CN110444253B 公开(公告)日: 2023-09-29
发明(设计)人: 黄龙 申请(专利权)人: 上海美吉生物医药科技有限公司
主分类号: G16B20/20 分类号: G16B20/20;G16B50/30
代理公司: 北京哌智科创知识产权代理事务所(普通合伙) 11745 代理人: 何浩
地址: 200120 上海市浦东新区中国(上海)*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 适用于 基因 定位 方法 系统
【权利要求书】:

1.一种适用于混池基因定位的方法,其特征在于,所述方法包括:

标记过滤,基于预设标记质量信息,对分子标记数据进行过滤,获取符合预设质量要求的分子标记数据;

统计计算,根据群体情况,对过滤后获取的分子标记数据进行统计计算,获得统计信息;

结果整理,对获得的统计信息进行整理,提取基因信息;

其特征在于,所述标记过滤包括:

过滤等位基因数量2个的SNP和INDEL标记,过滤每个样本最低深度2X,最高深度100X的分子标记,依据群体类型和亲本信息进行过滤,如果群体类型是F2群体,仅保留两个亲本纯和且有差异的分子标记,如果群体类型是F1群体,则保留仅有两个亲本杂合的分子标记;

所述标记过滤通过Perl语言完成,形成最终的分子标记数据分析统计表;

所述标记过滤包括以下步骤:

过滤两个亲本和测序混池的测序深度低于10X,或者大于100X的分子标记;

根据材料的群体类型进行过滤,如果是F2群体则过滤两个亲本基因型一致的分子标记,如果是F1群体则过滤两个亲本均为纯和的分子标记;

针对混池,依据亲本和混池的性状关系进行过滤,过滤不符合亲本混池性状关系的分子标记;

针对过滤完成的分子标记,计算每个分子标记的基因型频率;其中,基因型频率的计算公式如下:

其中,Mutation Allele Depth为两个亲本中突变型亲本的基因型在子代中的测序深度,Reference Allele Depth为野生型亲本在子代中的测序深度;

其特征在于,所述统计计算包括:

计算两个混池中基因型频率的欧式距离,欧式距离的计算不考虑群体的类型,所有的数据计算方式一致;计算两个混池的G统计量,G统计量的计算不考虑群体类型,所有的数据计算方法一致;

在差异基因型频率的计算过程中,对单个变异位点进行计算时,如果是F1群体则将与参考基因组不一致的基因学习型频率放在分子,两个混池的基因型频率相减后的绝对值为最终的结果;如果是F2群体则选择突变型亲本的基因型频率为分子,两个混池的基因型频率相减后的值为最终结果;

所有的deltaindex值均为突变型减野生型;滑窗计算按照基因组长度与混池大小进行,利用最优无偏线性估计进行滑窗,滑窗过程中对每个窗口的变异位点数量进行统计,当一个窗口的变异位点个数小于10个时,取全基因组平均值作为窗口的最终结果;利用群体混池大小和个数进行bootstrap计算,取置信度0.05所对应的数据作为阈值进行分析;

所述统计计算包括以下步骤:

基于式(1)计算各个混池的deltaindex值,基于式(3)计算各个混池的ED值,基于式(2)计算各个混池的G值;

deltaindex=allelemutation-alleleindex                  (1)

基于当前各个混池的深度比例,利用R语言随机生成1000个的随机混池模拟数据,分析模拟数据的分位数,依据0.95的分位数确定真实数据的阈值,筛选差异的区域和位点;

计算部分利用R语言完成,选择至少两个方法定位到的区域作为最终定位的结果;

所述结果整理包括:

根据筛选得到的变异位点,参考基因组上连续出现5个以上的SNP,为关联区域,提取区域内的变异位点和功能,筛选其中非同义突变的位点;

基于参考基因组数据获得的基因位置信息和变异检测过程中的SNP注释信息,提取区域内的基因功能和变异位点的基因功能;

基因组数据的基因位置信息由基因组组装过程获得,区域内的功能变异由SNPefff软件分析获得。

2.如权利要求1所述的适用于混池基因定位的方法,其特征在于,所述方法还包括:

利用slurm和sge的任务管理系统,将统计计算的几种方法并行运行,并最终选择至少两个方法得到的结果取交集,获得最终的分析结果。

3.一种适用于混池基因定位的系统,其特征在于,所述系统包括:

标记过滤模块,用于基于预设标记质量信息,对分子标记数据进行过滤,获取符合预设质量要求的分子标记数据;

统计计算模块,用于根据群体情况,对过滤后获取的分子标记数据进行统计计算,获得统计信息;

结果整理模块,用于对获得的统计信息进行整理,提取基因信息;

所述标记过滤模块具体用于:

过滤等位基因数量2个的SNP和INDEL标记,过滤每个样本最低深度2X,最高深度100X的分子标记,依据群体类型和亲本信息进行过滤,如果群体类型是F2群体,仅保留两个亲本纯和且有差异的分子标记,如果群体类型是F1群体,则保留仅有两个亲本杂合的分子标记;

所述标记过滤模块通过Perl语言实现,形成最终的分子标记数据分析统计表;其进行标记过滤的过程包括以下步骤:

过滤两个亲本和测序混池的测序深度低于10X,或者大于100X的分子标记;

根据材料的群体类型进行过滤,如果是F2群体则过滤两个亲本基因型一致的分子标记,如果是F1群体则过滤两个亲本均为纯和的分子标记;

针对混池,依据亲本和混池的性状关系进行过滤,过滤不符合亲本混池性状关系的分子标记;

针对过滤完成的分子标记,计算每个分子标记的基因型频率;其中,基因型频率的计算公式如下:

其中,Mutation Allele Depth为两个亲本中突变型亲本的基因型在子代中的测序深度,Reference Allele Depth为野生型亲本在子代中的测序深度;

所述统计计算模块具体用于:

计算两个混池中基因型频率的欧式距离,欧式距离的计算不考虑群体的类型,所有的数据计算方式一致;计算两个混池的G统计量,G统计量的计算不考虑群体类型,所有的数据计算方法一致;

在差异基因型频率的计算过程中,对单个变异位点进行计算时,如果是F1群体则将与参考基因组不一致的基因学习型频率放在分子,两个混池的基因型频率相减后的绝对值为最终的结果;如果是F2群体则选择突变型亲本的基因型频率为分子,两个混池的基因型频率相减后的值为最终结果;

所有的deltaindex值均为突变型减野生型;滑窗计算按照基因组长度与混池大小进行,利用最优无偏线性估计进行滑窗,滑窗过程中对每个窗口的变异位点数量进行统计,当一个窗口的变异位点个数小于10个时,取全基因组平均值作为窗口的最终结果;利用群体混池大小和个数进行bootstrap计算,取置信度0.05所对应的数据作为阈值进行分析;

所述统计计算模块进行计算的过程包括以下步骤:

基于式(1)计算各个混池的deltaindex值,基于式(3)计算各个混池的ED值,基于式(2)计算各个混池的G值;

deltaindex=allelemutation-alleleindex                  (1)

基于当前各个混池的深度比例,利用R语言随机生成1000个的随机混池模拟数据,分析模拟数据的分位数,依据0.95的分位数确定真实数据的阈值,筛选差异的区域和位点;

计算部分利用R语言完成,选择至少两个方法定位到的区域作为最终定位的结果;

所述结果整理模块具体用于:

根据筛选得到的变异位点,参考基因组上连续出现5个以上的SNP,为关联区域,提取区域内的变异位点和功能,筛选其中非同义突变的位点;

基于参考基因组数据获得的基因位置信息和变异检测过程中的SNP注释信息,提取区域内的基因功能和变异位点的基因功能;

基因组数据的基因位置信息由基因组组装过程获得,区域内的功能变异由SNPefff软件分析获得;

所述适用于混池基因定位的系统利用slurm和sge的任务管理系统,将统计计算的几种方法并行运行,并最终选择至少两个方法得到的结果取交集,获得最终的分析结果。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海美吉生物医药科技有限公司,未经上海美吉生物医药科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910811291.5/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top