[发明专利]基于全外显子测序的非靶向区域基因型填充方法在审
申请号: | 202211684704.6 | 申请日: | 2022-12-27 |
公开(公告)号: | CN115910200A | 公开(公告)日: | 2023-04-04 |
发明(设计)人: | 于晓光;杜政霖;邢世来 | 申请(专利权)人: | 温州谱希医学检验实验室有限公司 |
主分类号: | G16B20/20 | 分类号: | G16B20/20;G16B20/40;G16B25/00;G16B40/00;G16B40/20 |
代理公司: | 北京预立生科知识产权代理有限公司 11736 | 代理人: | 李红伟 |
地址: | 325024 浙江省温州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 全外显子测序 靶向 区域 基因型 填充 方法 | ||
1.基于全外显子测序的非靶向区域基因型填充方法,包括:
获取目标队列的全外显子测序数据、参考全基因组测序数据集;
对所述参考全基因组测序数据集中的位点进行过滤,输出参考全基因组测序数据集的SNP位点信息;所述SNP位点信息包括染色体号、基因组坐标及等位基因、已去除非SNP的位点的人群基因型信息;
基于所述参考全基因组测序数据集的SNP位点信息和所述目标队列的全外显子测序数据,计算目标队列中每个样本各个SNP位点的基因型可能性结果,并得到每个样本中的基因型可能性结果;
合并所述每个样本中的基因型可能性结果,得到目标队列全部样本中基因型可能性结果;
对所述参考全基因组测序数据集进行片段化分割处理,得到片段化分割处理后的基因组片段信息;
基于所述目标队列全部样本中的基因型可能性结果、所述参考全基因组测序数据集的SNP位点信息、所述基因组片段信息,利用机器学习算法对目标队列中单个样本非靶向区域的基因型进行估算,得到单个样本非靶向区域的基因型估算结果。
2.根据权利要求1所述的基于全外显子测序的非靶向区域基因型填充方法,其特征在于,所述方法还包括:
基于所述参考全基因组测序数据集的SNP位点信息和所述目标队列的全外显子测序数据,计算目标队列中每个样本各个SNP位点的基因型可能性结果,并得到每个样本中非靶向区域和/或靶向区域的基因型可能性结果;
合并所述每个样本中非靶向区域和/或靶向区域的基因型可能性结果,得到目标队列全部样本中非靶向区域和/或靶向区域的基因型可能性结果;
对所述参考全基因组测序数据集进行片段化分割处理,得到片段化分割处理后的基因组片段信息;
基于所述目标队列全部样本中非靶向区域和/或靶向区域的基因型可能性结果、所述参考全基因组测序数据集的SNP位点信息、所述基因组片段信息,利用机器学习算法对目标队列中单个样本的基因型进行估算,对目标队列中单个样本非靶向区域和/或靶向区域的基因型进行估算,得到单个样本非靶向区域和/或靶向区域的基因型估算结果;
可选的,所述计算目标队列中每个样本各个SNP位点的基因型可能性的方法包括:利用BCFtools的mpileup进行计算,得到基于测序深度计算的各个SNP位点的基因型可能性;
可选的,所述估算结果包括:填充后基因型剂量、基因型后验概率和最佳估计基因型的结果。
3.根据权利要求1所述的基于全外显子测序的非靶向区域基因型填充方法,其特征在于,所述机器学习算法包括但不限于以下算法对基因型进行估算:迭代优化算法;迭代优化算法包括以下一种或几种:梯度下降、共轭梯度、坐标下降、牛顿迭代、逐步回归、最小角回归、拉格朗日乘法。
4.根据权利要求1所述的基于全外显子测序的非靶向区域基因型填充方法,其特征在于,所述参考全基因组测序数据集为特定人群的参考全基因组测序数据集,所述特定人群的参考全基因组测序数据集包括不同国家/种族/地域的特定人群;
可选的,所述特定人群的参考全基因组测序数据集为中国人群的参考全基因组测序数据集。
5.根据权利要求1所述的基于全外显子测序的非靶向区域基因型填充方法,其特征在于,所述方法还包括:基于所述估算结果整合基因组片段信息,得到包含基因型的染色体水平结果;
可选的,所述方法还包括:基于所述估算结果整合基因组片段信息,得到包含基因型和单体型信息的染色体水平结果;
可选的,利用GLIMPSE_ligated得到所述染色体水平结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于温州谱希医学检验实验室有限公司,未经温州谱希医学检验实验室有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211684704.6/1.html,转载请声明来源钻瓜专利网。