[发明专利]一种癌症相关SNP、基因、miRNA和蛋白质相互作用的多层网络模型构建方法和应用有效
申请号: | 201811087575.6 | 申请日: | 2018-09-18 |
公开(公告)号: | CN109326316B | 公开(公告)日: | 2020-10-09 |
发明(设计)人: | 张阳;赵毅;王德华 | 申请(专利权)人: | 哈尔滨工业大学(深圳) |
主分类号: | G16B5/00 | 分类号: | G16B5/00 |
代理公司: | 北京高沃律师事务所 11569 | 代理人: | 刘奇 |
地址: | 518000 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 癌症 相关 snp 基因 mirna 蛋白质 相互作用 多层 网络 模型 构建 方法 应用 | ||
本发明提供了一种癌症相关SNP、基因、miRNA和蛋白质相互作用的多层网络研究方法,属于癌症的生物信息学分析技术领域,所述方法包括以下步骤:1)筛选癌症组织样本与正常组织样本的差异显著的SNP位点数据;2)用xgboost法分别分析癌症组织样本与正常组织样本获得差异显著的基因表达数据、miRNA数据和蛋白质数据;3)以差异显著的SNP位点数据、基因表达数据、miRNA数据和蛋白质数据分别为一层,用最大信息系数法MIC分析两两之间的关联关系;4)获得由SNP位点‑基因表达数据‑miRNA数据‑蛋白质数据之间的多层网络关联关系。所述方法能准确分析肿瘤标志物。
技术领域
本发明属于癌症的生物信息学分析技术领域,尤其涉及一种癌症相关 SNP、基因、miRNA和蛋白质相互作用的多层网络模型构建方法和应用。
背景技术
癌症是严重威胁人类生存和社会发展的重大疾病和严重的公共卫生问题之一,癌症控制已成为世界各国政府的卫生战略重点。随着基因测序技术日益成熟和对基因组学的深入研究,生物信息科学家通过全基因组关联分析GWAS技术挖掘鉴定了多个与复杂疾病有关的遗传变异。GWAS技术依托单个SNP位点为遗传标志,对全基因组进行对照或相关性的探究,以期发现显著影响表型的SNP位点。GWAS在探寻基因与疾病关联方面取得了巨大成效。自首例年龄相关性视网膜黄斑变性全基因组研究之后,生物科学家陆续展开了一系列其他疾病的全基因组分析,并确定了易感区域的致病基因和 SNP变异情况。当前GWAS分析的研究已经持续了10余年,发现了一批与各类复杂疾病有关的遗传变异。在方法研究上主要集中在统计学方法、生物学实验验证、生物学信号通路等。虽然单个SNP的统计检验分别能够获得主要遗传效应,对于识别疾病风险或复杂相互作用的SNP是必要的。
疾病的复杂性状受到多基因的微小影响所导致的,SNP位点通过作用于基因的表达量间接影响表型,所以在分析遗传变异时需要考虑基因编码区域和调控区域。由于大部分疾病属于多基因疾病,同时相邻的遗传变异可能存在连锁不平衡关系,确定基因型与表型的因果关系存在一些困难。GWAS方法着重于测试疾病与单个SNP在基因组上的关联,仅报道具有显著统计学意义的SNP。因此,GWAS不足以检测具有小边际效应的遗传变异体,无法获得SNP位点-基因表达数据-miRNA数据-蛋白质数据之间的相互关联关系。
发明内容
有鉴于此,本发明的目的在于提供一种癌症相关SNP、基因、miRNA 和蛋白质相互作用的多层网络的研究方法和应用。
为了实现上述目的,本发明提供了以下技术方案:一种癌症相关SNP、基因、miRNA和蛋白质相互作用的多层网络模型构建方法,包括以下步骤: 1)将癌症组织样本与正常组织样本的全基因组数据进行全基因组关联分析获得SNP位点数据,并从SNP位点数据中筛选差异显著的SNP位点数据; 2)用xgboost法分别分析癌症组织样本与正常组织样本的基因表达数据、 miRNA数据和蛋白质数据获得差异显著的基因表达数据、miRNA数据和蛋白质数据;3)以步骤2)获得的差异显著的基因表达数据、miRNA数据和蛋白质数据分别为一层,用最大信息系数法分别分析各层层内数据的关联关系以及任意两层间数据的关联关系;4)以步骤1)中获得的差异显著的SNP 位点数据为一层,将所述差异显著的SNP位点数据与步骤3)中的差异显著的基因表达数据层进行关联获得SNP位点与基因表达数据层之间的关联关系;从而获得由SNP位点-基因-miRNA-蛋白质之间的多层网络关联关系;步骤3)中所述关联关系的确定为计算关联系数,若关联系数MIC≥0.5则确定关联关系;步骤4)中所述差异显著的SNP位点数据与步骤3)中差异显著的基因表达数据层关联关系的确定为当所述差异显著的SNP位点位于差异显著的基因内部时,确定关联关系;步骤1)与步骤2)之间无时间顺序限定。
优选的,所述癌症组织样本与正常组织样本的全基因组数据为经过主成分分析筛选的基因背景相同的全基因组数据。
优选的,所述筛选差异显著的SNP位点数据的方法为χ2检验、Fisher 检验分析法、逻辑回归法和xgboost算法中的一种。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学(深圳),未经哈尔滨工业大学(深圳)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811087575.6/2.html,转载请声明来源钻瓜专利网。