[发明专利]一种定量评估烟草引起分子突变程度的方法在审
申请号: | 201910280783.6 | 申请日: | 2019-04-09 |
公开(公告)号: | CN110120246A | 公开(公告)日: | 2019-08-13 |
发明(设计)人: | 宋凯;仇哲炜;何奇恩 | 申请(专利权)人: | 天津大学 |
主分类号: | G16B20/50 | 分类号: | G16B20/50;G16B40/00 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 琪琛 |
地址: | 300350 天津市津南区海*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 突变 吸烟 定量评估 肺癌 烟草 分子损伤 检测肺癌 烟雾暴露 预测结果 综合考虑 反推 烟雾 样本 吻合 评估 | ||
1.一种定量评估烟草引起分子突变程度的方法,其特征在于,包括以下步骤:
(1)获取数据;针对LUAD、LUSC和SCLC获取数据集;
(2)数据预处理;将LUAD的样本作为训练集,按照pack year分为三组:重度吸烟患者(heavy):pack year≥60;轻度吸烟患者(light):0≤pack year<60;从不吸烟患者(never):pack year=0,所有数据集按照pack year给样本赋予类标签,将LUAD的样本里heavy组作为正样本,never组作为负样本进行机器学习;在特征提取方面,研究烟草暴露对肺癌肿瘤基因的变异影响,以每个样本的TMB和TTR作为特征进行模式识别;
(3)机器学习与分类器;以LUAD肿瘤样本为训练样本,样本类标签根据其临床吸烟信息heavy smoker为正样本,never smoker为负样本,将TMB和TTR作为样本的特征运用最大熵算法进行模式识别可得到分类器,分类器预测值F-score作为由烟草引起的分子突变程度的得分,得分大于0表示有与吸烟相关的分子突变,得分小于0表示没有与吸烟相关的分子突变,值大小表示分子突变程度,实现了外因烟草诱发肿瘤细胞基因变异的定量评估。
2.根据权利要求1所述定量评估烟草引起分子突变程度的方法,其特征在于,所述步骤(1)数据集获取是指LUAD有两个独立的数据集:GDC数据集下载自基因组数据共享网站https://portal.gdc.cancer.gov/,是体细胞突变的全外显子组数据;该数据集共包含567个样本,作为建模的训练集;另一个数据集来自一篇文献,共有183个LUAD肿瘤样本,选择其中的159个外显子组数据样本作为测试集;LUSC数据集:下载自GDC网站,一共有492个外显子组测序样本,作为模型的测试集;SCLC数据集:两个独立的数据集作为模型的测试集来自两篇文献;一个包含30个外显子组测序样本,另一个包含27个外显子组测序样本。
3.根据权利要求1所述定量评估烟草引起分子突变程度的方法,其特征在于,所述步骤(3)机器学习获得的分类器为:
Fi=0.4615xi+0.8681yi+0.3584
其中xi是用z-score方法规范化后的log2TMB,yi是用z-score方法规范化后的TTR;规范化参数为训练集样本的均值和标准差,log2TMB:均值7.1848、标准差1.8573;TTR:均值1.0255、标准差0.9077。
4.根据权利要求1所述定量评估烟草引起分子突变程度的方法,其特征在于,所述步骤(3)机器学习过程中,采用5折交叉验证的训练方法,LUAD(GDC)样本中,随机选取4/5作为训练集,剩余1/5作为验证集,训练过程循环1000次,训练参数的中位值作为最终模型的参数系数和常量值;分类效果由SN、SP、ACC来评估,在此SN表示heavy smoker样本被正确预测为正样本的比例,SP表示never smoker样本被正确预测为负样本的比例,ACC表示所有被预测正确样本所占的比例;LUAD(Broad)数据集作为测试集进行模型泛化性的检验,最后对包含LUAD在内的所有肺癌数据集样本进行预测。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910280783.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种同时定位多个基因的方法
- 下一篇:一种分布式基因大数据存储平台