[发明专利]一种复杂数据预测模型的构建方法在审
申请号: | 201610900487.8 | 申请日: | 2016-10-14 |
公开(公告)号: | CN107025384A | 公开(公告)日: | 2017-08-08 |
发明(设计)人: | 赵乐平 | 申请(专利权)人: | 赵乐平 |
主分类号: | G06F19/20 | 分类号: | G06F19/20;G06F19/24 |
代理公司: | 北京华夏正合知识产权代理事务所(普通合伙)11017 | 代理人: | 韩登营,张焕亮 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 复杂 数据 预测 模型 构建 方法 | ||
技术领域
本发明涉及一种复杂数据预测模型的构建方法。
背景技术
新一代测序技术的出现,使研究人员能够处理收集的大数据(例如,使临床研究人员能够处理收集自患者的上百个生物样本),并进行如全基因组表达水平、甲基化水平或体细胞突变的分析,这里称为高维组学数据(HDOD,high dimension omics data)。虽然可获得的临床样品量通常有限,但由于每个样本被观测的变量的数目可以达到数千或数百万,因此临床研究的瓶颈,已经从样品采集转移到了数据管理和数据分析上。利用HDOD连同其它临床变量建立特定临床结果的预测模型,已经是生物医学信息学的研究人员的众多分析目标之一。
建立预测模型已经成为一些学科的定量研究员共享的研究点。研究员一直在积极利用来自数据库的大数据集进行预测模型的开发,采用的方法包括机器学习算法、支持向量机和遗传算法。此外,基于对数据库技术和可视化工具的熟练掌握,研究员可以有效地构建HDOD,通过缩放p计算分析HDOD,并使得HDOD衍生的结果可视化,从而使生物医学研究人员可以对HDOD进行处理,并可以直观地观测结果。
构建预测模型已经是现有技术,通常是根据已知预测多变量的结果,构建基于回归的预测模型,且大多采用广义线性模型(GLM)。Hastie和Tibshirani放宽了参数假设,描述了广义相加模型(GAM),用非参数回归方法结合几十年的研究。近年来,统计学家一直在研究使用惩罚似然技术(包括LASSO、GBM和弹性网络技术)来使HDOD自动的选择协变量。这些方法是转化研究中用于处理维度灾难的主要工具。
虽然计算机科学与统计学之间存在交叉,但之间的基本区别在于,计算机科学通常从系统的角度探索带有多变量的图谱,而统计学倾向于遵循节省原则确定几个协变量预测模型。统计学面临的一个主要挑战是如何控制根据HDOD选择预测器的假阳性错误率的过度膨胀,其将导致“过度拟合”预测模型。与此相反,计算机科学或生物信息学中,则主要对HDOD图谱感兴趣,常常想要量化直观的图谱,重复生成图谱独立的数据集。
本发明保留这两种分析方法的特点,提出一种混合算法,包括两个步骤:在第一步骤中,要确定一组代表对象HDOD图谱的“范例”,所述“范例”一般通过无监督学习的聚类分析法获得。为了代表集群图谱,选择单一集群的质心作为范例。每个范例通过p个元素的HDOD向量分类。范例的数目(q)通常小于等于样本量(n)。参照各范例,可以计算每个对象的相似性度量,生成具有维度(n×q)的相似性度量的矩阵,通常情况下,p>>n≥q。本步骤可以有效地将高维稀疏矩阵HDOD(n×p)转换成“稠密数据矩阵”(n×q)。在第二步骤中,使用惩罚似然方法来选择出那些符合预测结果的范例。由于维数从p大幅减小到q,惩罚似然方法可以很好地选择出包含信息的范例,大大减少了惩罚计算的步骤。本过程首先基于“无监督学习”的范例,然后通过“有监督学习”选择与结果关联的包含信息的范例。由于结果回归范例特异性的相似性,这种方法被称为“面向对象的回归”,或简称为OOR。
随着新一代测序技术,一些生物技术学家/生物技术公司已经将其创新研究转向于生产人类基因组的完全分相二倍体,即,一对带有多个单核苷酸多态性(SNPs)的分相单倍型。在功能基因内,多个分相SNP等位基因,连同所有单型核苷酸,代表可用于破译官能转录物或蛋白序列的完全分相序列。实际上,目前这种双等位基因多态性可以构建成多等位基因多态性,能对遗传分析提供更多的信息。最好的范例基因包括主要用于组织相容性复合体(MHC)的人类白细胞抗原(HLA)基因,位于染色体6上的6p22.1和6p21.3之间。例如,下面将要详述的HLA*DRB1基因,由一对等位基因组成,各等位基因对应一分相序列。根据最近的计数统计(http://www.ebi.ac.uk/ipd/imgt/hla/),HLA*DRB1拥有超过1868个等位基因,编码1364个蛋白质。虽然对它们的功能已经进行了几十年的研究,但其特殊的多态性对如I型糖尿病(T1D)等疾病的遗传关联性的研究,则是个新的课题。此外,因为与许多较不常见的等位基因关联的样本数量有限,以及多个等位基因测试的多重性的原因,阻碍了多态性从基础研究到临床应用的转化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于赵乐平,未经赵乐平许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610900487.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种太阳能卷轴电池
- 下一篇:一种便携式环保蓄能设备
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置