[发明专利]适用复杂性状的基因-环境交互的分析方法及存储介质有效
申请号: | 202210373636.5 | 申请日: | 2022-04-11 |
公开(公告)号: | CN114898809B | 公开(公告)日: | 2022-12-23 |
发明(设计)人: | 张纪峰;毕文健;马雨茁;赵延龙 | 申请(专利权)人: | 中国科学院数学与系统科学研究院 |
主分类号: | G16B40/00 | 分类号: | G16B40/00;G16B20/20 |
代理公司: | 合肥天明专利事务所(普通合伙) 34115 | 代理人: | 苗娟 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 适用 复杂 性状 基因 环境 交互 分析 方法 存储 介质 | ||
本发明公开了一种适用复杂性状的基因‑环境交互的分析方法及存储介质,方法包括:获取表型数据、基因型数据、环境因素数据和混杂因素数据;选择分析所需的广义线性回归模型,在边际遗传效应与边际基因‑环境交互作用均为0的假设下拟合约束模型、估计模型参数并计算残差;对于待检验的位点,估计其次要等位基因频率,基于score统计量检验其边际遗传效应的显著性;选择并计算相应的用于检验边际基因‑环境交互作用显著性的检验统计量;使用正态分布近似方法与鞍点近似方法相结合的混合检验策略计算统计p值以检验边际基因‑环境交互作用的显著性,实现全基因组范围的关联分析。本发明具有适用范围广、分析速度快、准确度高等优点。
技术领域
本发明涉及系统生物学技术领域,涉及一种生物医学大数据处理方法,特别涉及一种适用复杂性状的基因-环境交互的分析方法。
背景技术
随着高通量基因测序技术、高精度成像技术以及电子健康记录系统的发展,生物医学进入了健康医疗信息化的大数据新时代。海量的生物医学大数据为系统生物学研究提供了丰富的研究资源。比如英国生物样本库(UK Biobank)收集了50万英国人的数据并向全球科研人员开放,其中包含基因测序、磁共振扫描成像、临床指标、生活方式等多维度、跨尺度数据。我国的大型生物样本库近年来也得到了快速发展,中国慢性病前瞻性研究、张江国际脑库等数据库收集了数以万计甚至数以十万计的样本信息并进行了全面的数据采集。利用快速、有效的算法从大数据中挖掘出可理解的模式,对于推进生物医学的基础研究和临床研究,特别是对于精准医疗、个体化预防、复杂疾病的智能诊疗等领域具有重要的研究意义。
生物医学研究中大量的复杂性状(如身高、体重等)和疾病(如糖尿病、高血压等)等表型呈现出明显的家族聚集性,比如患者直系后代的发病风险常高于普通人,这些现象表明遗传和环境因素在个体发育和患病过程中起到了重要作用。全基因组关联分析(genome-wide association study,GWAS)是一种通过检验全基因组遗传标记与表型变异关联的显著性来定位与性状相关的遗传位点,在群体水平上解析性状遗传基础的方法。简单的讲,就是从人类全基因组范围内的序列变异(单核苷酸多态,Single NucleotidePolymorphism,SNP),筛选出与疾病性状关联的SNP位点。全基因组关联分析可以在全基因水平上对复杂性状的遗传变异进行关联分析。
复杂性状的产生与发展不能完全由遗传变异来解释,而是遗传变异和环境因素共同作用的结果。基因-环境交互作用分析可以捕捉基因与环境因素之间的交互作用,对复杂表型具有重要的影响,识别基因-环境交互作用对于个性化和分层预防与治疗尤为重要,基于关联分析找出基因-环境交互作用(G×Eeffect)有助于我们了解疾病的发病机制和设计个体化治疗方案,值得深入研究。但是基因-环境交互作用的关联性较弱,因此常常需要较大的数据样本量才能达到足够的检验效能,这大大增加了发现关联性的难度。
最近几年,随着测序技术和电子健康记录(Electronic Health Record,EHR)的发展,很多大型的生物样本资源库(Biobank)为研究者提供了非常详尽的大样本信息,这使得我们可以在全基因组(genome-wide)乃至于全表型组(phenome-wide)尺度下进行基因-环境交互作用(G×E)的关联分析。然而,样本量的大量增长对全基因组关联分析算法的运算速度提出了更严苛的要求。比如,当分析40万样本数据时,拟合几百万次回归模型需要数月的运算时间。此外,表型具有不平衡的分布也可能会使得现有分析的方法会失效。
现有的大多数基因-环境交互作用的有效分析方法都侧重于数量性状或者二元性状,目前还没有一种统一的快速准确的统计方法可以应用于大型生物样本库中各种不同复杂性状(例如生存数据表型、多分类表型)的全基因组范围的基因-环境交互作用研究。现有的方法都存在一定的缺陷,比如:
(1)似然比检验方法
对于每一个待检验的位点,似然比检验需要拟合一次备择假设下的无约束模型和一次零假设下的约束模型,对于全基因组分析需要进行上百万次的模型拟合,运算时间长,需要几个月时间。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院数学与系统科学研究院,未经中国科学院数学与系统科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210373636.5/2.html,转载请声明来源钻瓜专利网。