[发明专利]一种重复区域背景噪音过滤模型的构建方法及背景噪音过滤方法在审
申请号: | 202111358497.0 | 申请日: | 2021-11-16 |
公开(公告)号: | CN114141310A | 公开(公告)日: | 2022-03-04 |
发明(设计)人: | 汉雨生;安玥;王洪明;张周;揣少坤 | 申请(专利权)人: | 广州燃石医学检验所有限公司 |
主分类号: | G16B20/50 | 分类号: | G16B20/50;G16B30/00;G16B40/00 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 颜希文;郝传鑫 |
地址: | 510320 广东省广州市黄埔区广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 重复 区域 背景 噪音 过滤 模型 构建 方法 | ||
1.一种重复区域背景噪音过滤模型的构建方法,其特征在于,包括以下步骤:
(1)对样本进行二代测序,通过与参考基因组比对,得到所述样本的snv、indel突变;
(2)提取所述参考基因组重复区域列表中低复杂度区域以及简单重复区域列表;识别所述参考基因组上的简单重复序列;将所述简单重复序列区域与所述重复区域列表根据碱基位置进行合并得重复区域列表;根据所述重复区域列表,确定训练集;
(3)根据特征值,利用所述训练集构建真阳、假阳突变识别的随机森林模型,即完成模型构建;
其中,所述特征值包括下述值中的至少一种:
所述突变的长度;
AF;
ratio.sum值;
支持所述突变的所有双端reads数量;
支持所述突变的所有reads数量;
其中,所述AF为待过滤突变的实际突变丰度;所述ratio.sum值为AF与所述背景基线中所述突变的平均丰度的比值;所述平均丰度为AD.sum与DP.sum的比值;所述AD.sum值为所述样本支持所述突变的测序序列数量总和;所述DP.sum值为覆盖所述突变的测序序列数量总和。
2.依据权利要求1所述的背景噪音过滤模型的构建方法,其特征在于,所述训练集为所述重复区域列表内,每个重复区域往上、下游各扩展10bp,在此范围内指定数量相近的外显子上的真阳突变和假阳突变。
3.依据权利要求1所述的背景噪音过滤模型的构建方法,其特征在于,所述简单重复区域是指重复单元≤6bp的重复区域。
4.依据权利要求1所述重复区域背景噪音过滤模型的构建方法,其特征在于,在所述步骤(1)中,所述样本为阴性样本,且样本的数量不少于40例。
5.依据权利要求1所述重复区域背景噪音过滤模型的构建方法,其特征在于,在所述步骤(1)中,得到所述样本的snv、indel突变后,统计所述样本中DP.sum值、AD.sum值、DP.max值、AD.max值;
其中,所述DP.max值为所述样本中最大的覆盖所述突变的测序序列数量;所述AD.max值为所述样本中最大的支持所述突变的测序序列数量。
6.依据权利要求5所述重复区域背景噪音过滤模型的构建方法,其特征在于,在所述步骤(1)中,构建过滤的背景基线;所述背景基线的评估值包括下述至少一种:
ratio.sum值;
ratio.max值;所述ratio.max值为AF与所述背景基线中所述突变的最大丰度的比值;所述最大丰度为AD.max与DP.max的比值;
pvalue.sum值;所述pvalue.sum值为AD、DP、DP.sum、AD.sum四个值的Fisher单侧检验p-value值;
其中,所述AD为待过滤突变的实际支持突变的测序序列数;所述DP为待过滤突变的实际覆盖突变的测序序列数。
7.依据权利要求5所述重复区域背景噪音过滤模型的构建方法,其特征在于,当一个所述突变不存在背景基线时,所述DP.sum和DP.max给虚拟值100000,所述AD.sum和AD.max给虚拟值1进行计算。
8.依据权利要求1所述重复区域背景噪音过滤模型的构建方法,其特征在于,在所述步骤(2)中,包括注释内含子区的重复区域的方法:
根据指定的转录本,在GENECODE上找到转录本对应的Exon位置,对合并后的所述重复区域列表进行注释。
9.依据权利要求1所述重复区域背景噪音过滤模型的构建方法,其特征在于,在所述步骤(2)中,所述内含子区重复区域为所述重复区域起始、终止碱基位置在内含子上,并且距离外显子2bp以上,最小重复单元串联重复5次及5次以上的简单重复区域。
10.依据权利要求1所述重复区域背景噪音过滤模型的构建方法,其特征在于,在所述步骤(3)中,所述突变为snv突变时,突变的长度取值等于0。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州燃石医学检验所有限公司,未经广州燃石医学检验所有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111358497.0/1.html,转载请声明来源钻瓜专利网。