[发明专利]一种基于二代测序的单独肿瘤样本区分基因突变类型的方法有效
申请号: | 201911147268.7 | 申请日: | 2019-11-21 |
公开(公告)号: | CN110846411B | 公开(公告)日: | 2020-09-18 |
发明(设计)人: | 赵国栋;乔宗赟;陈洁 | 申请(专利权)人: | 上海仁东医学检验所有限公司 |
主分类号: | C12Q1/6886 | 分类号: | C12Q1/6886;G16B30/10;G16B20/50 |
代理公司: | 福州科扬专利事务所 35001 | 代理人: | 李晓芬 |
地址: | 200120 上海市浦东新*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 二代 单独 肿瘤 样本 区分 基因突变 类型 方法 | ||
1.一种基于二代测序的单独肿瘤样本区分基因突变类型的方法,其特征在于,具体包括以下步骤:
S1、对肿瘤组织样本和正常组织样本进行DNA提取,并采用探针捕获的方法对肿瘤组织样本和正常组织样本提取的DNA进行建库并测序;
S2、利用BWA MEM算法对经过步骤S1分别获取的来源于肿瘤组织样本和正常组织样本的DNA测序数据进行序列比对,同时生成属于肿瘤组织样本的比对文件Tumor.dup.bam和属于正常组织样本的比对文件Normal.dup.bam;
S3、利用GATK标准流程分别单独分析正常组织样本中的胚系突变和肿瘤组织样本中的混合突变,同时结合正常组织样本和肿瘤组织样本,分析肿瘤组织样本中的体细胞突变;
S4、利用步骤S3得到的肿瘤组织样本中的混合突变的突变位点信息作为创建机器学习所需的数据集输入特征;所述突变位点信息包括突变位点对应在肿瘤组织样本比对文件中的信息采用bam-readcount软件计算reference碱基的正链和负链的碱基数、突变等位基因的正链和负链的碱基数、其它噪声碱基的正链和负链碱基数以及相对应的突变位点碱基平均质量值、比对的平均质量值;同时,结合步骤S3得到的正常组织样本中的胚系突变位点和肿瘤组织样本中的体细胞突变位点,输入特征作为将要预测的突变类型结果;
S5、将经过步骤S4得的数据集随机分隔为训练数据集和测试数据集,采用SVM或KNN对训练数据集进行模型训练,构建训练模型并用测试数据集进行测试并对训练模型预测效果进行评估,选择最优训练模型,进而得到能够区分肿瘤组织样本中基因突变类型的机器学习模型;
S6、经过步骤S5得到机器学习模型对经过步骤S4得到的整个数据集进行拆分验证,最终得到分类模型能够作为分类器用于全新的单独肿瘤样本的突变类型的预测,区分体细胞突变和胚系突变;
所述基于二代测序的单独肿瘤样本区分基因突变类型的方法用于非疾病的诊断目的。
2.如权利要求1所述的一种基于二代测序的单独肿瘤样本区分基因突变类型的方法,其特征在于:所述步骤S3中利用GATK标准流程中的HaploCaller工具单独处理正常组织样本比对文件,进而分析正常组织样本中的胚系突变;利用GATK标准流程中的Mutect2工具单独处理肿瘤组织样本比对文件,进而分析肿瘤组织样本中的混合突变;利用GATK标准流程中的Mutect2工具结合处理正常组织样本比对文件和肿瘤组织样本比对文件,进而分析肿瘤组织样本中的体细胞突变。
3.如权利要求1所述的一种基于二代测序的单独肿瘤样本区分基因突变类型的方法,其特征在于:所述步骤S5中测试训练集包括基于经过步骤S3已知的体细胞突变的突变位点以及胚系突变的突变位点的ATCG碱基频率、碱基平均质量值以及比对的平均质量值。
4.如权利要求3所述的一种基于二代测序的单独肿瘤样本区分基因突变类型的方法,其特征在于:所述步骤S6中对整个数据集进行10-20次拆分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海仁东医学检验所有限公司,未经上海仁东医学检验所有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911147268.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种变压器无线滤油监控系统
- 下一篇:一种斜楔浮动冲孔机构