[发明专利]一种基于单肿瘤样本高通量测序微卫星不稳定性探测位点筛选方法有效
申请号: | 201911414501.3 | 申请日: | 2019-12-31 |
公开(公告)号: | CN110910957B | 公开(公告)日: | 2023-06-27 |
发明(设计)人: | 孙大伟;柳毅;段小红;承康平;周启明 | 申请(专利权)人: | 求臻医学科技(浙江)有限公司 |
主分类号: | G16B20/20 | 分类号: | G16B20/20;G16B20/30;G16B25/10;G16B45/00 |
代理公司: | 重庆百润洪知识产权代理有限公司 50219 | 代理人: | 陈付玉 |
地址: | 310000 浙江省杭州市临*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 肿瘤 样本 通量 测序微 卫星 不稳定性 探测 筛选 方法 | ||
1.在一种基于单肿瘤样本高通量测序微卫星不稳定性探测位点筛选方法,其特征在于,包括以下步骤:
步骤S1:收集肿瘤/正常组织配对数据样本,并获取其覆盖微卫星位点的测序片段分布;
步骤S2:对每个配对数据样本的微卫星位点分布进行卡方检验,获取每个微卫星位点为体细胞突变的统计概率,并经过校正计算产生用于判断每个微卫星位点是否是体细胞位点的错误发现率;
步骤S3:根据每个微卫星位点是否为体细胞位点的错误发现率将微卫星位点分为体细胞位点或胚系位点,将样本覆盖率>10%的微卫星位点作为有效训练位点输入基于单肿瘤样本的机器学习模型中用作模型训练;
步骤S4:对单个有效训练位点进行训练,将该有效训练位点的有效样本数的80%作为训练集,20%作为对照集分别用于机器学习模型的训练和测试;训练和测试结束后,若体细胞位点的样本数和胚系位点的样本数均大于5,对照集的曲线下面积>0.95,则该微卫星位点保留作为有效位点,同时生成一个有效位点模型,否则去除该微卫星位点;具体的,所述训练步骤为,对训练集中的有效样本进行机器学习模型训练,将训练集样本的体细胞位点和胚系位点信息作为模型建立的输入,得到针对单肿瘤样本的机器学习预测模型,将训练集中单肿瘤样本的位点信息BAM文件输入单肿瘤样本的机器学习预测模型,扫描所有训练位点的分布,得到位点分布信息,根据训练集中单肿瘤样本的位点分布信息,训练机器学习模型;所述测试步骤为,对测试集中的有效样本进行机器学习模型测试,将测试集样本的单肿瘤样本的位点信息BAM文件输入单肿瘤样本的机器学习训练模型,得到预测结果,通过预测结果计算微卫星不稳定性分值并预测测试集样本微卫星不稳定性状态,通过预测的测试集样本微卫星不稳定性状态与测试样本原有判定的微卫星不稳定性状态对比,结果符合说明测试位点为有效位点,得到有效位点模型;
步骤S5:经过训练和测试后,得到所有有效位点及其有效位点模型;
步骤S6:使用MSIsensor软件对样本的数据扫描,预设有效位点为微卫星不稳定性位点的概率为p_cutoff;采用有效位点模型分别对对应的各样本中支持的每个位点进行预测,
得到该样本支持的位点i为微卫星不稳定性位点的概率为pi,i为正整数,通过比较pi和p_cutoff判定该位点是否为微卫星不稳定性位点。
2.根据权利要求1所述的一种基于单肿瘤样本高通量测序微卫星不稳定性探测位点筛选方法,其特征在于,步骤S1中所述肿瘤/正常样本配对数据的数据格式为全外显子组的BAM数据。
3.根据权利要求1所述的一种基于单肿瘤样本高通量测序微卫星不稳定性探测位点筛选方法,其特征在于,步骤S3中所述微卫星位点的分类依据为,错误发现率<0.05的微卫星位点标为体细胞位点,错误发现率>0.2的微卫星位点标为胚系位点。
4.根据权利要求1所述的一种基于单肿瘤样本高通量测序微卫星不稳定性探测位点筛选方法,其特征在于,步骤S6中,所述微卫星不稳定性位点的判定方法为:若pi<p_cutoff,则该位点判别为1,即判定该位点i为微卫星不稳定性位点,否则该位点判别为0。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于求臻医学科技(浙江)有限公司,未经求臻医学科技(浙江)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911414501.3/1.html,转载请声明来源钻瓜专利网。