[发明专利]利用蛋白质序列构建基因组的方法和装置在审
申请号: | 201510755855.X | 申请日: | 2015-11-09 |
公开(公告)号: | CN105219765A | 公开(公告)日: | 2016-01-06 |
发明(设计)人: | 李炯棠;朱柏翰;薛尉 | 申请(专利权)人: | 中国水产科学研究院 |
主分类号: | C12N15/10 | 分类号: | C12N15/10 |
代理公司: | 北京市京大律师事务所 11321 | 代理人: | 刘向辉;王凝 |
地址: | 100141 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 利用 蛋白质 序列 构建 基因组 方法 装置 | ||
技术领域
本发明涉及遗传学和生物信息学领域,尤其是涉及基因组的构建方法和装置。
背景技术
物种的全基因组装配目前主要依赖于鸟枪法策略。在构建多个插入片段长度不一的文库后,先利用插入片段短的文库组装基因组,逐步利用插入片段更长的文库组装基因组,使得基因组长度逐步增长。但是采用鸟枪法策略构建的基因组无法完整覆盖全部的基因。
蛋白生物合成包括转录和翻译两个生物学过程。首先,转录过程以连续性基因组为模板进行转录,去除内含子后形成成熟的信使RNA。然后,翻译过程根据遗传密码的中心法则,将成熟的信使RNA中“碱基的排列顺序”(核苷酸序列)解码,并生成对应的特定蛋白序列。如果基因组不完整,则一条蛋白序列将被分成2个或者更多比对区域,分散在多个基因组序列上。利用这些区域及其在蛋白序列的位置,能够重新将对应的基因组序列串联起来,形成更长的基因组序列。那么原来散在的蛋白序列将能完整地覆盖。因此,开发利用蛋白质数据组装基因组序列的方法及装置具有可行性。而且开发该方法及装置将能提高基因完整性。
为对本发明做出清楚的说明,首先针对本说明书中使用的技术术语如下进行定义。
比对区域,在本说明书中是指蛋白序列与基因组序列相似或者一致的区域。由于基因组装配尚不完整,所以,一条蛋白序列可能被分割成多个比对区域,这些比对区域分别位于多个基因组序列上。
蛋白序列的长度,是指蛋白质所有氨基酸数。
比对区域的长度,是指比对区域上的蛋白氨基酸数。
比对区域的相对位置:是指比对区域相对于整条蛋白序列的位置。
比对区域的绝对位置:是指比对区域相对于基因组序列的位置。
比对区域之间的间隔:是指前后两个比对区域(i和j)在对应的基因组序列(A和B)的距离差,等于(基因组序列A的长度-比对区域i在A序列的位置+比对区域j在B序列的位置)。
序列覆盖度:等于比对区域长度与蛋白序列长度的比值。
基因组序列拼接:两个或者多个基因组序列按照比对区域在蛋白序列中的位置,先后顺序而成。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提出了一种基于蛋白序列拼接基因组的方法和装置,本发明采用的是含有最多连接证据的拼接即为最可靠拼接的统计思想。
根据本发明的一个方面,提供了一种基于蛋白序列拼接基因组的方法,包括如下步骤:
(1)筛选片段化蛋白序列
将蛋白序列与基因组序列进行比对,获得比对区域在所述蛋白序列上的相对位置,以及在所述基因组序列上的绝对位置,
去除序列覆盖度过高的蛋白序列和仅比对到一条基因组序列的蛋白序列,使得筛选后的蛋白序列能比对到多条基因组序列并且每个比对区域都不能完全覆盖整条蛋白,得到片段化的蛋白序列;
(2)比对区域在蛋白序列上的排序及筛选
按照所述片段化的蛋白序列对应的比对区域在蛋白序列上的所述相对位置,从小到大将其比对区域对应的基因组序列依次排列,
计算前后相连的两个比对区域之间的间隔,保留间隔小于200Kb的比对区域拼接和其对应的基因组序列拼接,
将所述基因组序列拼接所对应的所述片段化的蛋白序列作为所述基因组序列拼接的连接证据;
(3)基于最多连接证据的基因组序列拼接筛选
以所述基因组序列拼接中、后续连接新的基因组片段的序列为起点序列,以所述基因组序列拼接中、之前连接新的基因组片段的序列为终止序列,
将后续连接新的基因组片断、但是之前没有连接新的基因组片断的基因组序列作为起始点,将之前有连接新的基因组片断、但是后续没有连接新的基因组片断的基因组序列作为终结点,将之前既有连接新的基因组片断、后续又有连接新的基因组片断的基因组序列作为中间点,
保留有最多所述连接证据的所述起点序列和所述终止序列;
(4)形成新的基因组序列
针对步骤(3)中最终保留的序列,每个只能作为起始点的基因组片段,分别将其作为起始点,选择后续的中间点,为这个中间点进一步选择新的中间点,直至找到终结点为止,
根据上述各基因组序列连接的前后顺序将各基因组片段串联组装成更长的基因组片段。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国水产科学研究院,未经中国水产科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510755855.X/2.html,转载请声明来源钻瓜专利网。