[发明专利]使用基于树的空间数据结构对基因数据集的群体分类在审
申请号: | 202010488467.0 | 申请日: | 2013-08-07 |
公开(公告)号: | CN111667885A | 公开(公告)日: | 2020-09-15 |
发明(设计)人: | B·查克拉巴蒂;P·穆尼亚帕;S·库马尔;R·辛格;S·库马尔;A·马特胡尔 | 申请(专利权)人: | 皇家飞利浦有限公司 |
主分类号: | G16B40/00 | 分类号: | G16B40/00;G16B50/30;G06F16/901;G06F16/906 |
代理公司: | 永新专利商标代理有限公司 72002 | 代理人: | 孟杰雄 |
地址: | 荷兰艾*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 使用 基于 空间 数据结构 基因 数据 群体 分类 | ||
构建表示参考群体的参考基因数据集的参考特征向量。使用线性变换来对所述参考特征向量进行变换以生成所述参考群体的所述参考基因数据集的维度降低的向量表示。构建基于树的空间数据结构以将所述参考基因数据集索引为数据点,所述数据点由所述参考群体的所述参考基因数据集的所述维度降低的向量表示的至少一些维定义。可以通过对所述参考特征向量执行特征降维来生成所述线性变换。使用所述线性变换对表示先证者基因数据集的特征向量进行变换以生成维度降低的向量表示,所述维度降低的向量表示被定位在所述基于树的空间数据结构中以执行针对所述先证者基因数据集的群体分配。
本申请是2013年8月7日提交的申请号为201380041817.7、名称为“使用基于树的空间数据结构对基因数据集的群体分类”的分案申请。
技术领域
下文总体上涉及基因分析领域、医学领域,并且涉及基因分析领域、医学领域的应用,例如包括肿瘤学领域、兽医学领域等的医学领域的应用。
背景技术
能够使用诸如微阵列和“下一代”测序系统的技术来采集针对个体的大的基因数据集,其中,微阵列能够生成数万到数十万的基因数据点,例如,每个对应于目标蛋白等的表达水平,“下一代”测序系统能够输出构成数百万或更大基数的大的序列以及甚至整个基因组序列。根据这样的数据集,能够识别诸如单核苷酸多态性(SNP)、拷贝数变异(CNV)等的各种基因标记物,该基因标记物是医学检验的,例如指示特定类型的癌症。
已知,对这样的基因标记物的解读通过按种族、性别或其他群体分组对个体的分类的知识得到促进或者在一些情况下需要按种族、性别或其他群体分组对个体的分类的知识。例如,基于群体,一些基因组变异体(注意,如本文中所使用的,“基因”和“基因组”被认为是可互换的)已经与超过一个不同的基因失调相关联。在一些情况下,等位基因在一个群体中是主要等位基因,而在另一个群体中是次要(以及疾病指示性)等位基因。因此,对于对基因变异体的适当解读而言,获知适当的群体是有用的或者甚至是必须的。
在一些情况下,能够基于现有的知识和/或观测到的表现型来对基因数据集进行分类。例如,患者的性别或种族可以是已知的或自报告的。然而,该方法能够易于出错。一些分类对于对象和处置医学人员而言也可以是未知的。例如,患者可以未知地属于由未确诊的医学状况或由指示对特定疾病的倾向的基因标识定义的群体组。当一些处置的效力在群体之间可以不同时,对群体的适当识别在疾病管理中也是重要的。此外,由于笔误或遗漏、或者个人隐私或文化敏感性考虑,基因数据集可能没有标记有可用的分类信息。
能够备选地基于诸如基因型、表达/甲基化状态等的群体特异性基因标记物来将基因数据集分配给群体。该方法有利地从基因数据集自身导出群体分组信息。
当对新个体执行基因分析时,所采集的基因数据集经受该群体分类。类似地,当执行对在个体的群体内的子群体的基因分析时,这样的分类同样是初步操作。对基因数据集的群体分类通常是耗费时间的过程,并且必须针对分析下的(例如,每个新患者)每个新的基因数据集被执行。
此外,依赖于观测基因数据集中的离散基因标记物(例如,特异性群体指示性等位基因)的群体分类方法在群体分类过程中不利用完整基因数据集。
下文预见克服上述限制和其他限制的改进的装置和方法。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于皇家飞利浦有限公司,未经皇家飞利浦有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010488467.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种去除水中有机污染物的方法
- 下一篇:位置指示器