[发明专利]一种复杂数据预测模型的构建方法在审

专利信息
申请号: 201610900487.8 申请日: 2016-10-14
公开(公告)号: CN107025384A 公开(公告)日: 2017-08-08
发明(设计)人: 赵乐平 申请(专利权)人: 赵乐平
主分类号: G06F19/20 分类号: G06F19/20;G06F19/24
代理公司: 北京华夏正合知识产权代理事务所(普通合伙)11017 代理人: 韩登营,张焕亮
地址: 美国华*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 复杂 数据 预测 模型 构建 方法
【说明书】:

技术领域

发明涉及一种复杂数据预测模型的构建方法。

背景技术

新一代测序技术的出现,使研究人员能够处理收集的大数据(例如,使临床研究人员能够处理收集自患者的上百个生物样本),并进行如全基因组表达水平、甲基化水平或体细胞突变的分析,这里称为高维组学数据(HDOD,high dimension omics data)。虽然可获得的临床样品量通常有限,但由于每个样本被观测的变量的数目可以达到数千或数百万,因此临床研究的瓶颈,已经从样品采集转移到了数据管理和数据分析上。利用HDOD连同其它临床变量建立特定临床结果的预测模型,已经是生物医学信息学的研究人员的众多分析目标之一。

建立预测模型已经成为一些学科的定量研究员共享的研究点。研究员一直在积极利用来自数据库的大数据集进行预测模型的开发,采用的方法包括机器学习算法、支持向量机和遗传算法。此外,基于对数据库技术和可视化工具的熟练掌握,研究员可以有效地构建HDOD,通过缩放p计算分析HDOD,并使得HDOD衍生的结果可视化,从而使生物医学研究人员可以对HDOD进行处理,并可以直观地观测结果。

构建预测模型已经是现有技术,通常是根据已知预测多变量的结果,构建基于回归的预测模型,且大多采用广义线性模型(GLM)。Hastie和Tibshirani放宽了参数假设,描述了广义相加模型(GAM),用非参数回归方法结合几十年的研究。近年来,统计学家一直在研究使用惩罚似然技术(包括LASSO、GBM和弹性网络技术)来使HDOD自动的选择协变量。这些方法是转化研究中用于处理维度灾难的主要工具。

虽然计算机科学与统计学之间存在交叉,但之间的基本区别在于,计算机科学通常从系统的角度探索带有多变量的图谱,而统计学倾向于遵循节省原则确定几个协变量预测模型。统计学面临的一个主要挑战是如何控制根据HDOD选择预测器的假阳性错误率的过度膨胀,其将导致“过度拟合”预测模型。与此相反,计算机科学或生物信息学中,则主要对HDOD图谱感兴趣,常常想要量化直观的图谱,重复生成图谱独立的数据集。

本发明保留这两种分析方法的特点,提出一种混合算法,包括两个步骤:在第一步骤中,要确定一组代表对象HDOD图谱的“范例”,所述“范例”一般通过无监督学习的聚类分析法获得。为了代表集群图谱,选择单一集群的质心作为范例。每个范例通过p个元素的HDOD向量分类。范例的数目(q)通常小于等于样本量(n)。参照各范例,可以计算每个对象的相似性度量,生成具有维度(n×q)的相似性度量的矩阵,通常情况下,p>>n≥q。本步骤可以有效地将高维稀疏矩阵HDOD(n×p)转换成“稠密数据矩阵”(n×q)。在第二步骤中,使用惩罚似然方法来选择出那些符合预测结果的范例。由于维数从p大幅减小到q,惩罚似然方法可以很好地选择出包含信息的范例,大大减少了惩罚计算的步骤。本过程首先基于“无监督学习”的范例,然后通过“有监督学习”选择与结果关联的包含信息的范例。由于结果回归范例特异性的相似性,这种方法被称为“面向对象的回归”,或简称为OOR。

随着新一代测序技术,一些生物技术学家/生物技术公司已经将其创新研究转向于生产人类基因组的完全分相二倍体,即,一对带有多个单核苷酸多态性(SNPs)的分相单倍型。在功能基因内,多个分相SNP等位基因,连同所有单型核苷酸,代表可用于破译官能转录物或蛋白序列的完全分相序列。实际上,目前这种双等位基因多态性可以构建成多等位基因多态性,能对遗传分析提供更多的信息。最好的范例基因包括主要用于组织相容性复合体(MHC)的人类白细胞抗原(HLA)基因,位于染色体6上的6p22.1和6p21.3之间。例如,下面将要详述的HLA*DRB1基因,由一对等位基因组成,各等位基因对应一分相序列。根据最近的计数统计(http://www.ebi.ac.uk/ipd/imgt/hla/),HLA*DRB1拥有超过1868个等位基因,编码1364个蛋白质。虽然对它们的功能已经进行了几十年的研究,但其特殊的多态性对如I型糖尿病(T1D)等疾病的遗传关联性的研究,则是个新的课题。此外,因为与许多较不常见的等位基因关联的样本数量有限,以及多个等位基因测试的多重性的原因,阻碍了多态性从基础研究到临床应用的转化。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于赵乐平,未经赵乐平许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201610900487.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top