[发明专利]用于管理基因序列的方法和装置有效
申请号: | 201410599394.7 | 申请日: | 2014-10-30 |
公开(公告)号: | CN105631239B | 公开(公告)日: | 2018-08-17 |
发明(设计)人: | 丁建栋;朱俊;黄胜;张亚楠;严骏驰 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F19/10 | 分类号: | G06F19/10 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 酆迅;李峥宇 |
地址: | 美国纽*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 管理 基因 序列 方法 装置 | ||
本发明提供了用于管理基因序列的方法和装置。在一个实施方式中,提供了一种用于确定第一基因序列与第二基因序列之间的相似性的方法,包括:分别在第一基因序列和第二基因序列上移动预定长度的滑动窗口;在滑动窗口的第i次移动期间,提取所述第一基因序列在所述滑动窗口内的第一部分、和所述第二基因序列在所述滑动窗口内的第二部分;以及基于第一部分和第二部分确定第一基因序列与第二基因序列之间的相似性。在其他实施方式中,还用于压缩基因序列的方法、以及用于对经压缩的基因序列进行解压缩的方法。采用本发明,可以以更加适合于基因序列的自身特点的方式来度量两个基因序列之间的相似性,还可以基于该相似性来找到参考数据库中的最为匹配参考基因序列,并压缩基因序列。
技术领域
本发明的各实施方式涉及数据管理,更具体地,涉及用于管理基因序列(genesequence)的方法和装置。
背景技术
随着生物学的发展,人类对于生物基因的研究已经越来越深入,例如,已经涉及到了诸如人类健康、药物研发、动植物新品种以及关于微生物等诸多方面。
通过对生物的基因序列进行测序(sequencing),可以获得构成该生物的染色体的碱基对的序列。通常,将测量一个物种的第一个样本的基因序列的过程称为测序,而将测量该物种的其他样本的基因序列的过程称为重测序(re-sequencing)。测序和重测序技术已经实现了突破,并且随着所涉及的各项成本的降低,越来越多的个人或者团体开始认识到基因序列的重要性,并且目前已经通过测序/重测序过程而获得了大量物种的基因序列数据。
基因序列包括大量数据,仅以人类基因为例,人类基因包括大约30亿个碱基对,按照现有的表示方式,人类的基因序列将包括大约60亿个字符(字符A、G、T、C)。因而,在基因数据库中存储的每个基因序列将会占用大量的存储空间。进一步,当需要存储大量基因序列、或者当需要针对基因序列进行拷贝和传输时,将会面临数据存储/数据传输效率方面的更多挑战。
生物学家已经发现,同一物种的各个样本的基因序列之间存在一定的相似性。例如,人类的基因序列之间的相似性远远高于人类与其他物种的基因序列之间的相似性;进一步,黄色人种的基因序列之间的相似性通常会高于黄色人种与白色人种的基因序列之间的相似性。因而基于相似性,目前已经提出了参考基因序列的概念,参考基因序列可以是在以往的数据处理期间获得的具有代表性的典型基因序列。
例如,对于人类而言,黄色人种的男性的基因序列中可能会存在某些共同的部分,例如,控制皮肤颜色、头发颜色、性别的基因序列片段可能是相同的或者仅存在较小差异。因而,可以将某个黄色人种男性的基因序列作为参考基因序列。当需要存储另一个黄色人种男性的基因序列时,可以将该另一男性的基因序列与参考基因序列进行比较,并且仅需要存储两个基因序列之间数据差异和参考基因序列的标识符即可。以此方式,可以大大降低待存储的数据量,因而实现数据压缩的目的。
应当注意,由于黄色人种的男性的基因序列中的很多部分是相同的,并且差异数据所占的比例通常并不太高。因而上述方法可以大大降低带存储基因序列所占用的数据空间。可以在参考数据库中存储大量参考基因序列,并且基于相似性搜索来从参考数据库中选择与待存储基因序列最为匹配的参考基因序列。然而,由于每个基因序列的数据量通常极大,并且包括字符A、G、T、C的各种组合,这些特点使得现有的相似性搜索算法并不十分适合于基因序列。
在基因序列处理的技术领域中,如何确定两个基因序列之间的相似性是选择参考基因序列以及其他后续处理的基础,因而如何基于基因序列的特征而提供更有效的确定相似性的方法,成为目前基因序列处理领域中的一个研究热点。
发明内容
因而,期望能够充分考虑基因序列的自身特点,来提供用于确定第一基因序列与第二基因序列之间的相似性的更加有效的技术方案。进一步,期望可以基于该确定相似性的方法来找到更加匹配于待存储基因序列的参考基因序列,以便降低待存储基因序列和参考基因序列之间的差异数据的数据量,进而实现更好的数据压缩效果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410599394.7/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用