[发明专利]基于测序数据识别肿瘤纯度和绝对拷贝数的方法及装置有效
申请号: | 202010567812.X | 申请日: | 2020-06-19 |
公开(公告)号: | CN111755068B | 公开(公告)日: | 2021-02-19 |
发明(设计)人: | 黄毅;杨玲;罗梓文;裴士美;易鑫;刘久成;吴玲清;李俊;刘青峰;林浩翔 | 申请(专利权)人: | 深圳吉因加医学检验实验室 |
主分类号: | G16B20/20 | 分类号: | G16B20/20;G16B20/30;G16B30/00 |
代理公司: | 深圳鼎合诚知识产权代理有限公司 44281 | 代理人: | 李小焦;郭燕 |
地址: | 518000 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 序数 识别 肿瘤 纯度 绝对 拷贝 方法 装置 | ||
1.一种基于测序数据识别肿瘤纯度和绝对拷贝数的方法,其特征在于:包括以下步骤,
数据预处理步骤,包括对肿瘤和正常样本的下机数据进行质控,并将质控后的数据比对到参考基因组上,对成对的肿瘤和正常样本的比对文件进行变异位点检测,对变异检测位点进行人群数据库注释;
纯度和拷贝数鉴定步骤,包括将所述数据预处理步骤获得的数据作为纯度预测软件的输入文件,得到纯度和拷贝数信息模型;
判断模型是否符合正常分布步骤,包括通过模型倍型的探针支持数分布与全基因组加倍WGD的比较进一步判断纯度和拷贝数信息模型是否符合正常分布,删除不符合正常分布的纯度和拷贝数信息模型;具体包括,如果WGD=0,则倍型的探针支持数分布峰值应该在ploidy=2,如果WGD=1,则倍型的探针支持数分布峰值应该在ploidy=2和ploidy=4;如果WGD=2,则倍型的探针支持数分布峰值应该在ploidy=4和ploidy=8,依此类推;如果不符合以上规律,则将纯度和拷贝数信息模型判断为不符合正常分布,予以删除;
高肿瘤细胞分数亚克隆区域统计步骤,包括对符合正常分布的纯度和拷贝数信息模型进行亚克隆区域筛选,并对筛选亚克隆区域进行纯度筛选,累加得到高肿瘤细胞分数亚克隆区域;
BAF与allele1和allele2拷贝数匹配率计算步骤,包括对纯度预测软件计算获得的BAF与allele1和allele2的拷贝数进行一致性统计,获得一致片段所占比例,计算公式如式一所示,
式一 M = f ÷(f + b)
式一中,M表示BAF与allele1和allele2拷贝数匹配率,f表示BAF与allele1和allele2拷贝数匹配的探针支持数,b表示BAF与allele1和allele2拷贝数不匹配的探针支持数;BAF与allele1和allele2拷贝数匹配的条件为,BAF=0.5,且allele1拷贝数=allele2拷贝数,判断为匹配;或者,BAF不等于0.5,且allele1拷贝数不等于allele2拷贝数,判断为匹配;其余类型为不匹配;
最优模型判断步骤,包括将所述高肿瘤细胞分数亚克隆区域的探针支持数累加值乘以所述BAF与allele1和allele2拷贝数匹配率,如式二所示,统计最终得分S,分数最高者为最优纯度和拷贝数信息模型,从而获得准确的肿瘤纯度和绝对拷贝数数据,
式二 S = R × M
式二中,S表示模型判断的最终得分,R表示高肿瘤细胞分数亚克隆区域探针支持数累加值,M表示BAF与allele1和allele2拷贝数匹配率。
2.根据权利要求1所述的方法,其特征在于:所述数据预处理步骤中,变异位点检测包括单核苷酸位点突变检测和/或插入缺失突变检测。
3.根据权利要求2所述的方法,其特征在于:所述变异位点检测还包括,对位点测序深度进行K值过滤,K≥30×。
4.根据权利要求1所述的方法,其特征在于:所述人群数据库注释采用的软件为VEP。
5.根据权利要求1所述的方法,其特征在于:所述人群数据库包括ESP6500数据库、千人基因组计划数据库和ExAC人类外显子组整合数据库中的至少一个。
6.根据权利要求1所述的方法,其特征在于:在对变异检测位点进行人群数据库注释之前,还包括对所述人群数据库进行过滤,去除人群频率为n的变异位点,1‰≤n≤5%。
7.根据权利要求1所述的方法,其特征在于:所述纯度和拷贝数鉴定步骤中,纯度预测软件为ABSOLUTE、PureCN、Sequenza、absCN-seq或ASCAT。
8.根据权利要求1所述的方法,其特征在于:所述高肿瘤细胞分数亚克隆区域统计步骤,具体包括,将subclonal.allele1=0,并且subclonal.allele2=0的区域判断为亚克隆区域;对所有亚克隆区域进行N值筛选,N≥0.9则定义为高肿瘤细胞分数亚克隆区域;对所有筛选出的高肿瘤细胞分数亚克隆区域进行进行探针数累加计算,获得高肿瘤细胞分数亚克隆区域的探针支持数累加值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳吉因加医学检验实验室,未经深圳吉因加医学检验实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010567812.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种组合模块开关
- 下一篇:一种粉煤灰氨氮物质提取测试装置及方法