[发明专利]一种基于基因大数据进行祖源分析预测的算法在审
申请号: | 202010000024.2 | 申请日: | 2020-01-07 |
公开(公告)号: | CN111210874A | 公开(公告)日: | 2020-05-29 |
发明(设计)人: | 罗奇斌;申玉林;廖胜光;任毅 | 申请(专利权)人: | 北京奇云诺德信息科技有限公司 |
主分类号: | G16B20/20 | 分类号: | G16B20/20 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 101300 北京市顺义区经*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 基因 数据 进行 分析 预测 算法 | ||
本发明涉及基因大数据祖源分析预测技术领域,且公开了一种基于基因大数据进行祖源分析预测的算法,包括祖源成分样本数据的收集、数据预处理、祖源成分分析预测、Y染色体单倍群分析、线粒体单倍群分析、结果展示。目前市场上祖源分析技术多使用开源数据库,其中有关中国个体的样本量较少,导致血统和单倍群分型不准确、不够细致等,这里我们在开源数据库的基础上添加本公司收集的大量中国人样本数据,同时对源数据进行进一步优化,使得输入数据更加准确可靠,从而提高输出结果的精确度,另外本公司自主研发此三种分析中的比对打分算法,从而使得最终结果更加准确和细致。
技术领域
本发明涉及基因大数据祖源分析预测技术领域,具体为一种基于基因大数据进行祖源分析预测的算法。
背景技术
现代生物理论认为,基因是遗传的基本单位。在人类繁殖的过程中,遗传特征通过基因传递给下一代,子代分别从父母双方各获得一套染色体,一方面完成了遗传信息从亲代到子代的传递,另一方面也丰富了子代的遗传特征多样性。在人类族群演化的过程中,DNA中会累计多种遗传突变,也被称为单核苷酸多态性位点(SNP),不同族群累积的突变位点也不尽相同,因此SNP可以在一定程度上反应族群的遗传特征。
在父母双方各自将自己一半的染色体遗传给儿子的时候,父亲将传递给子代22条常染色体和一条Y染色体,母亲则贡献另外一半常染色体和一条X染色体,因此男性的Y染色体只会从父亲处获得。在Y染色体传递的过程中,也会发生突变,在族群演化的过程中,Y染色体上的SNP被累积了下来,因此由Y染色体上SNP可以推测个体的父系祖源。生物学家通过收集分析不同族群的Y染色体数据,构建了Y染色体单倍群树,树上的节点可准确反映族群间发生分支的突变。通过检测这些突变并比对Y染色体单倍群树,我们可推测个体的Y染色体单倍群,追溯父系祖源、演化和迁徙。
除了常染色体和性染色体外,亲代的线粒体DNA也会遗传给子代。线粒体DNA只来自母亲提供的卵子,因此线粒体DNA只会通过母亲遗传。线粒体在亲子代传递过程中不会发生重组现象,但是和Y染色体一样会发生突变。通过研究这些累计的突变,可以追溯母系祖源、族群分化和迁徙。
目前市场上的祖源分析技术多使用开源数据库,其中关于中国个体的样本量小,导致血统和单倍群分型不准确、分型不细致等,从而无法做到精确的追溯祖源。
发明内容
针对上述背景技术的不足,本发明提供了一种基于基因大数据进行祖源分析预测的算法,即我们开发的祖源分析技术在使用开源数据库的基础上,同时添加多渠道收集的中国人样本数据,可以使祖源成分、单倍群分型更细致和准确。
本发明提供如下技术方案:一种基于基因大数据进行祖源分析预测的算法,其特征在于:包括祖源成分样本数据的收集、数据预处理、祖源成分分析预测、Y染色体单倍群分析、线粒体单倍群分析、结果展示:
第一步,祖源分析预测中使用数据的收集,包括国际千人基因组计划中的样本数据、Hapmap项目中样本数据以及奇云诺德收集到的大量中国人样本数据;
第二步数据预处理,奇云诺德公司收集到的样本采用Illumina公司针对亚洲人定制的ASAMD芯片进行基因分型检测,此芯片可检测出66万个有效SNP(single nucleotidepolymorphism,单核苷酸多态性)位点,千人基因组和Hapmap项目中的样本数据采用的技术包括WGS(Whole Genome Sequencing,全基因组测序)、WES(Whole Exome Sequencing,全外显子测序)以及芯片分型技术等,根据不同来源数据按照统一标准预处理成一个源数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇云诺德信息科技有限公司,未经北京奇云诺德信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010000024.2/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置