[发明专利]一种适用于混池基因定位的方法及系统有效

申请号：	201910811291.5	申请日：	2019-08-30
公开（公告）号：	CN110444253B	公开（公告）日：	2023-09-29
发明（设计）人：	黄龙	申请（专利权）人：	上海美吉生物医药科技有限公司
主分类号：	G16B20/20	分类号：	G16B20/20;G16B50/30
代理公司：	北京哌智科创知识产权代理事务所(普通合伙) 11745	代理人：	何浩
地址：	200120 上海市浦东新区中国(上海)***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种适用于基因定位方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种适用于混池基因定位的方法，其特征在于，所述方法包括：

标记过滤，基于预设标记质量信息，对分子标记数据进行过滤，获取符合预设质量要求的分子标记数据；

统计计算，根据群体情况，对过滤后获取的分子标记数据进行统计计算，获得统计信息；

结果整理，对获得的统计信息进行整理，提取基因信息；

其特征在于，所述标记过滤包括：

过滤等位基因数量2个的SNP和INDEL标记，过滤每个样本最低深度2X，最高深度100X的分子标记，依据群体类型和亲本信息进行过滤，如果群体类型是F2群体，仅保留两个亲本纯和且有差异的分子标记，如果群体类型是F1群体，则保留仅有两个亲本杂合的分子标记；

所述标记过滤通过Perl语言完成，形成最终的分子标记数据分析统计表；

所述标记过滤包括以下步骤：

过滤两个亲本和测序混池的测序深度低于10X，或者大于100X的分子标记；

根据材料的群体类型进行过滤，如果是F2群体则过滤两个亲本基因型一致的分子标记，如果是F1群体则过滤两个亲本均为纯和的分子标记；

针对混池，依据亲本和混池的性状关系进行过滤，过滤不符合亲本混池性状关系的分子标记；

针对过滤完成的分子标记，计算每个分子标记的基因型频率；其中，基因型频率的计算公式如下：

其中，Mutation Allele Depth为两个亲本中突变型亲本的基因型在子代中的测序深度，Reference Allele Depth为野生型亲本在子代中的测序深度；

其特征在于，所述统计计算包括：

计算两个混池中基因型频率的欧式距离，欧式距离的计算不考虑群体的类型，所有的数据计算方式一致；计算两个混池的G统计量，G统计量的计算不考虑群体类型，所有的数据计算方法一致；

在差异基因型频率的计算过程中，对单个变异位点进行计算时,如果是F1群体则将与参考基因组不一致的基因学习型频率放在分子，两个混池的基因型频率相减后的绝对值为最终的结果；如果是F2群体则选择突变型亲本的基因型频率为分子，两个混池的基因型频率相减后的值为最终结果；

所有的deltaindex值均为突变型减野生型；滑窗计算按照基因组长度与混池大小进行，利用最优无偏线性估计进行滑窗，滑窗过程中对每个窗口的变异位点数量进行统计，当一个窗口的变异位点个数小于10个时，取全基因组平均值作为窗口的最终结果；利用群体混池大小和个数进行bootstrap计算，取置信度0.05所对应的数据作为阈值进行分析；

所述统计计算包括以下步骤：

基于式(1)计算各个混池的deltaindex值，基于式(3)计算各个混池的ED值，基于式(2)计算各个混池的G值；

deltaindex＝allele_mutation-allele_index (1)

基于当前各个混池的深度比例，利用R语言随机生成1000个的随机混池模拟数据，分析模拟数据的分位数，依据0.95的分位数确定真实数据的阈值，筛选差异的区域和位点；

计算部分利用R语言完成，选择至少两个方法定位到的区域作为最终定位的结果；

所述结果整理包括：

根据筛选得到的变异位点，参考基因组上连续出现5个以上的SNP，为关联区域，提取区域内的变异位点和功能，筛选其中非同义突变的位点；

基于参考基因组数据获得的基因位置信息和变异检测过程中的SNP注释信息，提取区域内的基因功能和变异位点的基因功能；

基因组数据的基因位置信息由基因组组装过程获得，区域内的功能变异由SNPefff软件分析获得。

2.如权利要求1所述的适用于混池基因定位的方法，其特征在于，所述方法还包括：

利用slurm和sge的任务管理系统，将统计计算的几种方法并行运行，并最终选择至少两个方法得到的结果取交集，获得最终的分析结果。

3.一种适用于混池基因定位的系统，其特征在于，所述系统包括：

标记过滤模块，用于基于预设标记质量信息，对分子标记数据进行过滤，获取符合预设质量要求的分子标记数据；

统计计算模块，用于根据群体情况，对过滤后获取的分子标记数据进行统计计算，获得统计信息；

结果整理模块，用于对获得的统计信息进行整理，提取基因信息；

所述标记过滤模块具体用于：

所述标记过滤模块通过Perl语言实现，形成最终的分子标记数据分析统计表；其进行标记过滤的过程包括以下步骤：

过滤两个亲本和测序混池的测序深度低于10X，或者大于100X的分子标记；

根据材料的群体类型进行过滤，如果是F2群体则过滤两个亲本基因型一致的分子标记，如果是F1群体则过滤两个亲本均为纯和的分子标记；

针对混池，依据亲本和混池的性状关系进行过滤，过滤不符合亲本混池性状关系的分子标记；

针对过滤完成的分子标记，计算每个分子标记的基因型频率；其中，基因型频率的计算公式如下：

其中，Mutation Allele Depth为两个亲本中突变型亲本的基因型在子代中的测序深度，Reference Allele Depth为野生型亲本在子代中的测序深度；

所述统计计算模块具体用于：

所述统计计算模块进行计算的过程包括以下步骤：

基于式(1)计算各个混池的deltaindex值，基于式(3)计算各个混池的ED值，基于式(2)计算各个混池的G值；

deltaindex＝allele_mutation-allele_index (1)

计算部分利用R语言完成，选择至少两个方法定位到的区域作为最终定位的结果；

所述结果整理模块具体用于：

根据筛选得到的变异位点，参考基因组上连续出现5个以上的SNP，为关联区域，提取区域内的变异位点和功能，筛选其中非同义突变的位点；

基于参考基因组数据获得的基因位置信息和变异检测过程中的SNP注释信息，提取区域内的基因功能和变异位点的基因功能；

基因组数据的基因位置信息由基因组组装过程获得，区域内的功能变异由SNPefff软件分析获得；

所述适用于混池基因定位的系统利用slurm和sge的任务管理系统，将统计计算的几种方法并行运行，并最终选择至少两个方法得到的结果取交集，获得最终的分析结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于上海美吉生物医药科技有限公司，未经上海美吉生物医药科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910811291.5/1.html，转载请声明来源钻瓜专利网。

上一篇：TMB肿瘤突变符合标准品及其制备方法和应用
下一篇：一种菌群标记物的检测方法、检测系统及终端

同类专利

专利分类

G 物理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种适用于混池基因定位的方法及系统有效

专利文献下载