[发明专利]基因关联分析的修正方法及修正装置在审
申请号: | 201710667074.4 | 申请日: | 2017-08-07 |
公开(公告)号: | CN107526940A | 公开(公告)日: | 2017-12-29 |
发明(设计)人: | 索津莉;鲍峰;戴琼海 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F19/18 | 分类号: | G06F19/18;G06F19/24 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙)11201 | 代理人: | 张润 |
地址: | 10008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基因 关联 分析 修正 方法 装置 | ||
1.一种基因关联分析的修正方法,其特征在于,包括以下步骤:
获取序列步骤:根据训练的隐马尔科夫模型学到的生成概率分布获取新的样本的基因序列;
生成样本步骤:根据所述新的样本的基因序列生成新的样本;
标签赋值步骤:对所述新的样本进行标签赋值,其中,将所述新的样本与预设的患病以及健康的样本进行比对,以确定所属类别并放弃或者保留;以及
似然比检验步骤:重复执行所述获取序列步骤、生成样本步骤和所述标签赋值步骤,以得到满足预设条件的多个样本,并获取新的数据集,以进行基于回归方程的似然比检验。
2.根据权利要求1所述的基因关联分析的修正方法,其特征在于,所述训练的隐马尔科夫模型的训练方法包括:
检测基因核苷酸多态性位点(SNP)si上游下游位置的L个SNP;
根据所述L个SNP得到基因集合
在所述基因集合上,通过隐马尔科夫模型对序列进行建模,并通过训练所述隐马尔科夫模型到生成模型的参数集Θ,以得到所述训练的隐马尔科夫模型。
3.根据权利要求2所述的基因关联分析的修正方法,其特征在于,所述得到所述训练的隐马尔科夫模型,进一步包括:
通过最大化所述参数集Θ={π,A,B}来计算得到最适合所述基因集合的隐马尔科夫模型,且所述隐马尔科夫模型为:
其中,π为进入HMM隐状态每种状态的概率,A={aij}为为隐状态从i到j进行转移的概率,B={bjt}为从隐节点i观测到基因类型t的概率。
4.根据权利要求1所述的基因关联分析的修正方法,其特征在于,所述获取新的样本的基因序列,进一步包括:
获取所述新的样本的初始状态;
根据学习到的隐马尔科夫模型转移矩阵生成隐状态序列;
获取从所述隐状态序列按照发射矩阵进行随机观测的结果,并生成所述新的样本的基因序列。
5.根据权利要求1-4任一项所述的基因关联分析的修正方法,其特征在于,所述预设条件为所述多个样本组成的样本集合满足正负平衡。
6.一种基因关联分析的修正装置,其特征在于,包括:
获取模块,用于根据训练的隐马尔科夫模型学到的生成概率分布获取新的样本的基因序列,以执行获取序列步骤;
生成模块,用于根据所述新的样本的基因序列生成新的样本,以执行生成样本步骤;
赋值模块,用于对所述新的样本进行标签赋值,其中,将所述新的样本与预设的患病以及健康的样本进行比对,以确定所属类别并放弃或者保留,以执行标签赋值步骤;以及检验模块,用于重复执行所述获取序列步骤、生成样本步骤和所述标签赋值步骤,以得到满足预设条件的多个样本,并获取新的数据集,以进行基于回归方程的似然比检验,以执行似然比检验步骤。
7.根据权利要求6所述的基因关联分析的修正装置,其特征在于,还包括:训练模块,用于获取所述训练的隐马尔科夫模型,其中,所述训练模块具体用于检测基因核苷酸多态性位点(SNP)si上游下游位置的L个SNP,并根据所述L个SNP得到基因集合并且在所述基因集合上,通过隐马尔科夫模型对序列进行建模,并通过训练所述隐马尔科夫模型到生成模型的参数集Θ,以得到所述训练的隐马尔科夫模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710667074.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种智能交通路障高效清洗设备
- 下一篇:一种极片粉刷装置
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用