[发明专利]一种基于蛋白质信息的基因组序列拼接方法有效
申请号: | 201810530874.6 | 申请日: | 2018-05-29 |
公开(公告)号: | CN108897986B | 公开(公告)日: | 2020-11-27 |
发明(设计)人: | 王建新;尚娟;李洪东 | 申请(专利权)人: | 中南大学 |
主分类号: | G16B30/10 | 分类号: | G16B30/10;G16B30/20 |
代理公司: | 长沙市融智专利事务所(普通合伙) 43114 | 代理人: | 龚燕妮 |
地址: | 410083 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 蛋白质 信息 基因组 序列 拼接 方法 | ||
本发明公开了一种基于蛋白质信息的基因组序列拼接方法,包括:获取待拼接的DNA序列与蛋白质序列之间的比对信息;确定每条蛋白质序列上对应的DNA序列之间的相邻关系;构建相邻DNA序列之间的连接边并获取每个蛋白质序列上对应的每个DNA序列连接边的支持信息;依次对每个DNA序列连接边的支持信息进行去噪处理;基于权重打分函数依次对每个DNA序列的前、后节点进行去噪处理;计算存在支持信息的所有DNA序列连接边的连接间距;基于所有DNA序列连接边的连接间距以及每个DNA序列的前、后节点依次串接得到基因组序列拼接路径。通过上述方法提高基因组序列拼接结果的敏感性和精确度。
技术领域
本发明属于生物信息学领域,具体涉及一种基于蛋白质信息的基因组序列拼接方法。
背景技术
低成本化发展的新测序技术已经极大地改变了全基因组测序的格局,使科学家们能够启动众多的基因组项目来解码以前未被测序的生物体的基因组。测序技术在短短几天内就可以对大多数物种完成深度测序,包括哺乳动物在内。但是DNA测序技术不能直接产生染色体级别的完整序列,相反,它们会生成大量的读数,从基因组的不同部分取样长度从数十到数千不等的连续碱基。基因组拼接长序列由测序技术生成的数百万或数十亿个长度短的DNA序列测序读数拼接而成。
大多数物种由于缺乏参考基因组,在分析基因组开始之前,必须对读数进行序列从头拼接。不幸的是,基因组拼接仍然是一个非常困难的问题。基因组拼接软件根据读数的重叠将其合并为更长称为蛋白质序列(contigs),确定contigs的方向、顺序以及contigs间的距离构建基因组拼接长序列(scaffolds)。但是,目前的测序技术面临许多阻碍拼接工具重新构建完整染色体的难题,包括读数错误和基因组中大量的重复区。基因组测序技术的局限性以及基因组固有的复杂性导致了当前众多拼接算法没有一个是完美的。
还原基因结构是基因组序列拼接的重要目标之一。在一些低质量的拼接甚至是高质量的拼接中,某些基因区域仍然是不完整的。为了得到基因结构更加完善的新序列,使用蛋白质序列协助scaffolding是有效的。
基因是有遗传效应的DNA片段(病毒的基因可以是RNA),在染色体上线性排列。基因的表达是通过DNA合成蛋白质来实现的,DNA序列的碱基排列决定了mRNA序列中碱基的排列顺序,mRNA中碱基排列顺序又决定了蛋白质氨基酸的排列顺序,蛋白质氨基酸的排列顺序最终决定了蛋白质的一级结构和功能的特异性,从而使生物体表现出不同的遗传特性。因此,基因、DNA以及蛋白质存在对应关系。一个基因可以包含多个外显子,基因的外显子可能在两个不同的contigs上,根据分裂基因信息可以连接contigs,构建更长的scaffolds,参见图1。
蛋白质序列测定技术的发明先于DNA序列测序技术,当前有很多的蛋白质序列数据库,含有充足的蛋白质资源信息,为蛋白质序列指导序列拼接奠定了基础。Uniprot(http://www.uniprot.org/)是蛋白质序列和具有综合功能注释目录的中心资源库,信息最丰富,资源最广。Uniprot整合Swiss-Prot、TrEMBL和PIR-PSD三大数据库,其中Swiss-Prot数据库中的蛋白质数据经过了人工注释分析,而TrEMBL数据库是自动预测的,没有经过手工注释,因此Swiss-Prot蛋白质比TrEMBL蛋白质更加可靠。
为了进行基因组功能研究和进化分析,识别基因结构是基因组测序项目的主要目标。虽然双端短读数或长读数可以提高基因序列N50值,但是完善所有的基因结构仍然很困难。因此,需要开发新的基因组序列拼接方法(scaffolding方法)来恢复基因区域。目前已经开发了几个用蛋白质信息作为指导来增加基因组的连续性的scaffolding方法,例如ESPRIT,SWiPS和PEP_scaffolder。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810530874.6/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置