[发明专利]一种全基因组关联分析方法、系统及电子设备在审
申请号: | 201810133320.2 | 申请日: | 2018-02-07 |
公开(公告)号: | CN110211631A | 公开(公告)日: | 2019-09-06 |
发明(设计)人: | 郭宁;魏彦杰;张慧玲;郑志春;葛健秋;冯圣中 | 申请(专利权)人: | 深圳先进技术研究院 |
主分类号: | G16B20/20 | 分类号: | G16B20/20;G16B30/00;G16B40/30 |
代理公司: | 深圳市科进知识产权代理事务所(普通合伙) 44316 | 代理人: | 赵勍毅 |
地址: | 518055 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 样本 特征向量 关联分析 全基因组 电子设备 基因组 相似度 坐标轴 聚类 数据处理技术 测序数据 点位确定 特征表达 特征提取 原始数据 非冗余 计算量 参考 合并 申请 内存 基因 | ||
本申请属于基因数据处理技术领域,特别涉及一种全基因组关联分析方法、系统及电子设备。所述全基因组关联分析方法包括:步骤a:对样本的原始测序数据进行SNP点位确定,得到样本的SNP位点信息;步骤b:建立基于参考基因组SNP信息的坐标轴,并根据基于参考基因组SNP信息的坐标轴对样本的SNP位点信息进行特征提取,得到样本的特征向量;步骤c:将样本的特征向量进行聚类,得到样本的代表特征向量,并将所述代表特征向量进行合并,得到非冗余样本。本申请通过将原始数据进行聚类,对样本进行特征表达,找到重要的特征,降低数据的计算量,根据各个样本之间的相似度,将相似度高的样本合并起来,去掉其余的样本,大大降低了内存的需求,提高了效率。
技术领域
本申请属于基因数据处理技术领域,特别涉及一种全基因组关联分析方法、系统及电子设备。
背景技术
全基因组关联分析(Genome-Wide Association Studies,GWAS)在2005年首次提出,建立在SNP(Single Nucleotide Polymorphism)测序技术的基础上,在过去的十几年里,SNP测序技术的快速发展,全基因组关联分析已逐步在物种重要经济性状、植物育种、基因改良、尤其是在人类复杂疾病分析等方面起着越来越重要的作用。全基因组关联分析的目的是在整个基因组范围内找到与表型相关的易感基因位点变异。近年来,在全基因组关联分析领域涌现了大量的基因及其交互作用检测算法,尽管这些算法在领域内取得了巨大的成功,但当前依然存在着一些难题。
目前在进行全基因组关联分析时,采用病例-对照的思路(case-control)设计分析流程,设立两组样本,其中一组为健康的对照组,另一组为患病的病例组,主要的分析方法是在单位点关联分析的大规模列联表里对等位基因或者基因型进行计数,确认某一等位基因出现在病例组中的个数和出现在对照组中的个数,其比值的结果若大于1就可能表明这一等位基因与疾病相关。若采用多位点关联分析分析,则一般使用全部变异位点或根据连锁不平衡原理选择相邻的几个变异位点进行多变量的关联分析。常用的分析方法有基于单体型的分析、多变量logistic回归和多变量显著性差异检验。基于单体型的分析过程与根据发生比确认关联信息的过程类似,主要的好处是分析过程所要需要考虑的自由度很少,同时可以进一步把单体型信息作为分类标志与回归分析结合在一起进行深一层次的处理。多变量logistic回归则尝试在疾病与位点的基因型之间建立回归模型来检验是否有关联。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳先进技术研究院,未经深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810133320.2/2.html,转载请声明来源钻瓜专利网。