[发明专利]一种重复区域背景噪音过滤模型的构建方法及背景噪音过滤方法在审
申请号: | 202111358497.0 | 申请日: | 2021-11-16 |
公开(公告)号: | CN114141310A | 公开(公告)日: | 2022-03-04 |
发明(设计)人: | 汉雨生;安玥;王洪明;张周;揣少坤 | 申请(专利权)人: | 广州燃石医学检验所有限公司 |
主分类号: | G16B20/50 | 分类号: | G16B20/50;G16B30/00;G16B40/00 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 颜希文;郝传鑫 |
地址: | 510320 广东省广州市黄埔区广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 重复 区域 背景 噪音 过滤 模型 构建 方法 | ||
本发明涉及基因突变检测技术领域,公开了一种重复区域背景噪音过滤模型的构建方法及背景噪音过滤方法,针对点突变以及插入缺失突变,根据panel的阴性样本构建背景基线,构建基于人类基因组的重复区域数据库等,最后针对SNV、indel突变的丰度、背景基线、与重复区域的关系等信息,判断突变是否是背景噪音,进而分类过滤。本发明的过滤测序背景噪音的方法在假阳突变、真阳突变的识别应用上都表现出了优异的准确性和高效性。
技术领域
本发明涉及基因突变检测技术领域,特别是涉及一种重复区域背景噪音过滤模型的构建方法及背景噪音过滤方法。
背景技术
点突变(单核苷酸突变,SNV)和插入缺失突变(InDel)是人类基因组中常见的变异形式,很多重要的点突变以及插入缺失突变是致癌的驱动性突变,并且具有越来越多的靶向治疗的机会。针对点突变和插入缺失突变,也有越来越多的测序平台以及突变的识别算法。常见的检测基因点突变的方法有PCR法、Sanger测序法(一代测序)和二代测序(NGS)。
二代测序具有通量高的特点,测序成本也在逐年下降,但是,基于目前二代测序的技术限制,假阳性结果经常出现在最终分析结果中,其中包括大量测序平台造成的假阳性噪音,特别是在基因组上的简单重复序列区域,更容易出现假阳性背景噪音。目前,针对点突变和插入缺失突变的过滤,常用的工具有GATKVariantFiltration、Varscanfpfilter等,但是这些工具在去除测序背景噪音的准确性方面都有所欠缺,尤其是对于重复区域的假阳性,过滤有效性较差。
发明内容
本发明要解决的技术问题是针对点突变以及插入缺失突变,提供一种重复区域背景噪音过滤模型的构建方法及背景噪音过滤方法,以期解决现有针对点突变和插入缺失突变的二代测序技术中过滤假阳性噪音有效性差的技术问题。
为了解决上述技术问题,第一方面,本发明提供了一种重复区域背景噪音过滤模型的构建方法,包括以下步骤:
(1)对样本进行二代测序,通过与参考基因组比对,得到所述样本的snv、indel突变;
(2)提取所述参考基因组重复区域列表中低复杂度区域以及简单重复区域列表;识别所述参考基因组上的简单重复序列;将所述简单重复序列区域与所述重复区域列表根据碱基位置进行合并得重复区域列表;根据所述重复区域列表,确定训练集;
(3)根据特征值,利用所述训练集构建真阳、假阳突变识别的随机森林模型,即完成模型构建;
其中,所述特征值包括下述值中的至少一种:
所述突变的长度;
AF;
ratio.sum值;
支持所述突变的所有双端reads数量;
支持所述突变的所有reads数量;
其中,所述AF为待过滤突变的实际突变丰度;所述ratio.sum值为AF与所述背景基线中所述突变的平均丰度的比值;所述平均丰度为AD.sum与DP.sum的比值;所述AD.sum值为所述样本支持所述突变的测序序列数量总和;所述DP.sum值为覆盖所述突变的测序序列数量总和。
作为本发明重复区域背景噪音过滤模型的构建方法的优选实施方式,所述训练集为所述重复区域列表内,每个重复区域往上、下游各扩展10bp,在此范围内指定数量相近的外显子上的真阳突变和假阳突变。
作为本发明重复区域背景噪音过滤模型的构建方法的优选实施方式,所述简单重复区域是指重复单元≤6bp的重复区域。
作为本发明重复区域背景噪音过滤模型的构建方法的优选实施方式,在所述步骤(1)中,所述样本为阴性样本,且样本的数量不少于40例。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州燃石医学检验所有限公司,未经广州燃石医学检验所有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111358497.0/2.html,转载请声明来源钻瓜专利网。