[发明专利]一种基于大数据的染色体异常位点的筛选方法在审
申请号: | 201710492071.1 | 申请日: | 2017-06-26 |
公开(公告)号: | CN107194206A | 公开(公告)日: | 2017-09-22 |
发明(设计)人: | 沈雨后 | 申请(专利权)人: | 思畅信息科技(上海)有限公司 |
主分类号: | G06F19/22 | 分类号: | G06F19/22;G06F19/28 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 201800 上海市崇明县长兴镇潘园公*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 数据 染色体 异常 筛选 方法 | ||
技术领域
本发明涉及基因工程技术领域,特别是涉及一种基于大数据的染色体异常位点的筛选方法。
背景技术
单核苷酸多态性(single nucleotide polymorphism, SNP)位点,是指在基因组上单个核苷酸的变异形成的遗传标记,其数量很多,多态性丰富。单核苷酸多态性,主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。它是人类可遗传的变异中最常见的一种,占所有已知多态性的90%以上。单核苷酸多态性在人类基因组中广泛存在,平均每500~1000个碱基对中就有1个,估计其总数可达300万个甚至更多。
对目标区域通过一定的算法或者软件运算可以得到目标区域中潜在的单核苷酸多态性位点,在所得到的这些单核苷酸多态性位点中通常很难对找到的位点进行异常验证,如何从数以千计的单核苷酸多态性位点中精确筛选出异常位点是现在面临的一个难题。
发明内容
为克服现有技术的不足,本发明的目的在于提供一种基于大数据的、能够精准、快速筛选出染色体异常位点的筛选方法。
为实现上述目的,本发明通过以下技术方案实现:
一种基于大数据的染色体异常位点的筛选方法,包括如下步骤:
建立数据库:以预设疾病名称结合多态性、META分析、单核苷酸多态性、遗传性变异、GWAS分析中的至少一个作为关键词,在PubMed数据库中检索文献,根据所检索文献的摘要筛选出符合预设条件的相关联文献,将所述相关联文献下载到计算机的存储器,建立一个数据库;
确定位点的比值比:获取所述数据库中与所述预设疾病相关的所有位点的信息,从所述相关联文献的内容中确定出所述位点的比值比;
核查位点的频率:在HapMap数据库中输入所述位点,确定出在预设人群范围内所述HapMap数据库中所述位点对应基因型的研究频率,剔除没有频率以及最小等位基因频率小于3%的位点;将经剔除后保留的位点作为预设异常位点,将所述预设异常位点的比值比和频率汇总;
预实验验证:按照所述预设异常位点前后的序列,从NCBI中获取所述预设异常位点前后的序列片段,根据所述预设异常位点前后的序列片段设计PCR引物、探针;选取细胞样本并进行DNA抽提,采用RT-PCR技术进行DNA分型并进行数据分析,若数据分析显示出预设分型结果,则将所述预设异常位点确定为异常位点。
进一步的,所述确定位点的比值比具体包括:从所述相关联文献的内容中确定出与位点的比值比的相关数据,对所述相关数据进行处理,确定出所述位点的比值比。
进一步的,所述关键词还包括预设人群范围,以限定检索的范围。
有益效果:利用大数据建立数据库,以一些特殊的关键词来检索,将与预设条件的相关联文献全部下载下来,确定位点的比值比,然后核查位点的频率,再将剔除后保留的位点作为预设异常位点,最后通过预实验验证的方式,最终确认出异常位点。按照预设异常位点前后的序列,从NCBI中获取所述预设异常位点前后的序列片段,根据所述预设异常位点前后的序列片段设计PCR引物、探针;选取细胞样本并进行DNA抽提,采用RT-PCR技术进行DNA分型,进行数据分析,若数据分析显示出预设分型结果,则将所述预设异常位点确定为异常位点,该验证手段保证了精准度。
具体实施方式
下面对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
一种基于大数据的染色体异常位点的筛选方法,包括如下步骤:
建立数据库:以预设疾病名称结合多态性(polymorphism)、META分析(meta)、单核苷酸多态性(single nucleotide polymorphism,SNP)、遗传性变异(genetic variant)、GWAS分析(Genome-wide association study,GWAS)中的至少一个作为关键词,在PubMed数据库中检索文献,根据所检索文献的摘要筛选出符合预设条件的相关联文献,将相关联文献下载到计算机的存储器,建立一个数据库;
关键词示例:
(1)预设疾病名称+多态性;
(2)预设疾病名称+单核苷酸多态性;疾病名称+GWAS分析;
(3)预设疾病名称+多态性+META分析;
(4)预设疾病名称+单核苷酸多态性+META分析;
(5)预设疾病名称+遗传性变异;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于思畅信息科技(上海)有限公司,未经思畅信息科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710492071.1/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置