[发明专利]基因关联分析的修正方法及修正装置在审
申请号: | 201710667074.4 | 申请日: | 2017-08-07 |
公开(公告)号: | CN107526940A | 公开(公告)日: | 2017-12-29 |
发明(设计)人: | 索津莉;鲍峰;戴琼海 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F19/18 | 分类号: | G06F19/18;G06F19/24 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙)11201 | 代理人: | 张润 |
地址: | 10008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基因 关联 分析 修正 方法 装置 | ||
技术领域
本发明涉及大数据分析、精准医疗与基因工程技术领域,特别涉及一种基因关联分析的修正方法及修正装置。
背景技术
GWAS(Genome-wide association study,基因关联分析)在揭示遗传疾病的致病原理方面有着重要的意义。但是,现有的GWAS方法仍然存在很多缺失的因素来完整的解释复杂遗传疾病的致病原因,造成“缺失的遗传性”现象。针对这个问题,相关技术中,许多方法从不同的角度提出可能存在的原因,来解释缺失的致病机理。但是,在统计学与生物学两个领域,目前的工作仍然无法给出一个完整的解释方案。
发明内容
本申请是基于发明人对以下问题的认识和发现作出的:
考虑可能造成缺失遗传性的一种新的致病机理,即采集数据时不同种类数据的比例差异。在针对某种疾病的传统GWAS分析中,通常是对一定数量的健康个体以及患病个体的基因数据进行采集,然后进行统计分析。但是,如果要对某种特定的疾病进行分析,或者要对特定的种群进行研究的时候,很有可能采集不到足够的患病人群样本。因为健康人群容易寻找,但是患病人群具有特异性,如果分析的是一种罕见疾病的时候,那么本身满足要求的个体数目就是非常有限的。
当收集不到足够的致病人群数据时,传统的逻辑斯特回归(Logistic regression)加卡方检验方法会发生严重的统计偏差。这是因为在逻辑斯特回归的参数求解过程中,每一个样本都会对统计误差有一个相同重要性的贡献衡量,无论其是患病个体还是健康个体。当收集的数据中患病人群的数目远远小于健康人群数目时,患病人群整体误差会远远小于健康人群所造成的误差,从而导致对逻辑斯特回归的求解过程更加偏向于减少健康人群的误差,而相对忽视患病人群的误差,从而包含在患病人群中的致病信息一并被忽视掉,造成了GWAS方法对于疾病发现性能的降低。
在机器学习领域,对于这种正负样本不平衡数据的研究主要集中在对数据进行分类领域。通常来说,这类方法利用的是上采样技术来额外生成患病样本的合成数据,来人工制造一个相对平衡的数据集。但是这种方法很难应用到现有的GWAS分析框架中去,主要存在两个限制:首先现有方法考虑的是如何提高对不同类型的分类能力,而GWAS考虑的是如何发现更显著的位点。本质上,这是两个不同类型的问题。第二个是现有的方法是在传统的正交欧式空间中建模,但是在真实的基因数据中,信息是以序列的形式进行编码的。因而,内在的基因结构需要在分析中进行明确的建模。
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种基因关联分析的修正方法,该方法可以提高修正的适用性和准确性,简单易实现。
本发明的另一个目的在于提出一种基因关联分析的修正装置。
为达到上述目的,本发明一方面实施例提出了一种基因关联分析的修正方法,包括以下步骤:获取序列步骤:根据训练的隐马尔科夫模型学到的生成概率分布获取新的样本的基因序列;生成样本步骤:根据所述新的样本的基因序列生成新的样本;标签赋值步骤:对所述新的样本进行标签赋值,其中,将所述新的样本与预设的患病以及健康的样本进行比对,以确定所属类别并放弃或者保留;似然比检验步骤:重复执行所述获取序列步骤、生成样本步骤和所述标签赋值步骤,以得到满足预设条件的多个样本,并获取新的数据集,以进行基于回归方程的似然比检验。
本发明实施例的基因关联分析的修正方法,专门针对基因关联分析中存在的数据样本补平衡问题设计,可以利用概率生成模型,对已有数据的基因结构进行建模学习,获得数据内在的信息与统计结构,然后有针对性的生成新的样本,考虑整体的数据结构关系,赋给每个样本的标签类别,保持了原有数据中内在的基因信息,同时不违背原有的统计检验框架,从而原有的统计检验方法也可以直接使用,提高修正的适用性和准确性,简单易实现。
另外,根据本发明上述实施例的基因关联分析的修正方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述训练的隐马尔科夫模型的训练方法包括:检测基因核苷酸多态性位点(SNP)si上游下游位置的L个SNP;根据所述L个SNP得到基因集合在所述基因集合上,通过隐马尔科夫模型对序列进行建模,并通过训练所述隐马尔科夫模型到生成模型的参数集Θ,以得到所述训练的隐马尔科夫模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710667074.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种智能交通路障高效清洗设备
- 下一篇:一种极片粉刷装置
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用