[发明专利]用图形处理单元加速元基因组的物种分析的方法和系统有效
申请号: | 201110125025.0 | 申请日: | 2011-05-16 |
公开(公告)号: | CN102789551A | 公开(公告)日: | 2012-11-21 |
发明(设计)人: | 贾鹏;韦朝春;刘雷;赵一雷 | 申请(专利权)人: | 中国科学院上海生命科学研究院;上海生物信息技术研究中心;上海交通大学 |
主分类号: | G06F19/18 | 分类号: | G06F19/18 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 施浩 |
地址: | 20003*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 图形 处理 单元 加速 基因组 物种 分析 方法 系统 | ||
技术领域
本发明涉及一种元基因组的物种分析技术,尤其涉及利用图形处理单元(GPU)加速元基因组的物种分析的方法和系统。
背景技术
已有的微生物研究方法需要先对微生物进行分离培养,但是据估计只有大约1%的原核微生物能够在实验室中培养。因此,传统的方法研究微生物具有很大的局限性。
元基因组是一种不依赖培养的方法:对从环境样本中提取到的DNA进行直接测序。因此,元基因组具有揭示环境中微生物群落真实组成的潜力。
进行元基因组分析,最基础也是最重要的一个步骤是准确地将元基因组序列分配到其来源的物种。这个过程叫做元基因组物种分析。元基因组物种分析是指寻找元基因组序列的来源物种的过程,这对于后续的分析具有重要的基础意义。
按照分析的手段不同,可以将元基因组物种分析分为两类:基于比对的方法和基于组成的方法。
当元基因组序列所来自的物种已经被完整测序,基于比对的方法可以得到更加准确的结果。但是,通常元基因组中包含着大量的未知物种,用比对的办法很难将所有元基因组序列很好地归类。
而基于组成的元基因组分析方法,可能并不能将元基因组序列准确地将每一条序列都精确地分类到种和属的水平,但是却可以在纲和目的水平上大致地推测出每一条物种的来源。
在最近两年,新一代测序技术用比传统测序方法更高的通量和更低的测序成本在包括元基因组在内的各个领域得到了广泛的应用。但是,新一代测序技术所提供的读长较短,给元基因组的物种分析和拼接都带来了巨大的挑战。
目前最好的元基因组物种分析系统Phymm使用的是插值马尔科夫模型,在模拟的测试中Phymm被证明有着最高的敏感性和特异性。但是Phymm的计算量非常大,处理新一代测序技术产生的海量数据需要相当长的时间。
综上,尽管已经有许多工具可以进行元基因组分析,要迅速的进行元基因组物种分析仍然是一个巨大的挑战。
发明内容
本发明的目的在于解决上述问题,提供了一种用图形处理单元加速元基因组的物种分析的方法,在保持和现有Phymm系统相似准确性的同时,可以比现有的Phymm系统快至少两个数量级。
本发明的另一目的在于提供了一种用图形处理单元加速元基因组的物种分析的系统。
本发明的技术方案是:本发明揭示了一种用图形处理单元加速元基因组的物种分析的方法,包括:
从训练集中预先构建k阶马尔科夫模型;
将构建好的所述k阶马尔科夫模型载入到所述图像处理单元中;
将待分类的序列转换为寡核苷酸频数向量;
将所述寡核苷酸频数向量载入到所述图像处理单元中;
在所述图像处理单元中计算所述序列和每一个已知基因组的相似性分数;
将所述这些相似性分数送回主内存;
处理器用所述这些相似性分数最小的基因组的物种信息注释所述序列。
根据本发明的用图形处理单元加速元基因组的物种分析的方法的一实施例,所述的k阶马尔科夫模型中,k阶马尔科夫的状态是指k个寡核苷酸,一个状态之后连接着四个状态,前一状态的后(k-1)个字符和后一状态的前(k-1)个字符相同。
根据本发明的用图形处理单元加速元基因组的物种分析的方法的一实施例,计算所述序列和每一个已知基因组的相似性分数的步骤中包含了计算每一基因组的从第一状态到第二状态的概率:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院上海生命科学研究院;上海生物信息技术研究中心;上海交通大学,未经中国科学院上海生命科学研究院;上海生物信息技术研究中心;上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110125025.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:空调器单向阀节流装置
- 下一篇:一种智能的制冷系统
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用