[发明专利]基于决策树与线性回归模型预测癌症合成致死基因对的方法在审
申请号: | 201910613818.3 | 申请日: | 2019-07-09 |
公开(公告)号: | CN110349622A | 公开(公告)日: | 2019-10-18 |
发明(设计)人: | 郭丽;殷子博;杨国伟;钱博文 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G16B20/00 | 分类号: | G16B20/00;G16B5/00 |
代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 刘妍妍 |
地址: | 210023 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明为基因预测领域,公开了基于决策树模型和线性回归模型的癌症合成致死基因对预测方法。本方法主要分为数据训练阶段和合成致死基因对测试阶段。步骤依次为,首先基于多组学数据中提取包含所有突变基因对覆盖率、DNA甲基化、mRNA表达谱、拷贝数变异数据作为模型特征值进行聚类、去除假阳性、归一化处理,并且训练决策树模型以及线性回归模型。其次,利用决策树模型和线性回归模型分别预测在多种癌症中可能存在的合成致死基因对,得出合成致死基因对在不同癌症中的分布图谱。最后,对比两种模型得出在泛癌中均存在的合成致死基因对508对。本发明能较准确的预测多种癌症中可能存在的合成致死基因对,为癌症的精准治疗提供依据。 | ||
搜索关键词: | 致死基因 合成 线性回归模型 癌症 决策树模型 预测 数据训练阶段 归一化处理 变异数据 测试阶段 基因预测 突变基因 假阳性 决策树 拷贝数 聚类 去除 组学 图谱 覆盖率 治疗 | ||
【主权项】:
1.基于决策树与线性回归模型预测癌症合成致死基因对的方法,包括以下步骤:1)从高通量测序数据中提取多组学数据,并预处理为矩阵格式,包含基因名称,样本名称及对应的量化数据;2)基于1)中多组学数据进行有效数据筛选,将原始数据进行整合并将基因中超过70%为0的数据去除,以保证数据为有效数据;3)将2)中处理后的数据利用数据分析工具进行具体数据统计分析,并进行量化,得到每对合成致死基因对在多种癌症中的评分作为模型特征值;4)利用文本挖掘,在已公开的数据库和已发表文献中,寻找已验证过的合成致死基因对,并将其与3)中的特征值分别进行匹配得出在不同癌症中的评分;5)使用4)中得到的已验证的基因对的评分分别用决策树模型和线性回归模型进行数据训练;6)在训练阶段对每个特征值都进行上述训练;7)在测试阶段,使用5)中剩余基因对作为测试集,并从4)中多次划分分布相近的基因对,不断优化调整线性回归模型的权重以及决策树模型的决策边界;8)获取各个特征值权重及决策边界后,将候选合成致死基因对输入模型,得到预测的合成致死基因对结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910613818.3/,转载请声明来源钻瓜专利网。