[发明专利]用以分析细菌菌种的测序数据的系统及其方法在审
申请号: | 201610083766.X | 申请日: | 2016-02-06 |
公开(公告)号: | CN106778071A | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 郑佳扬;徐仁徽;刘韦驿;蔡孟勳;卢子彬;赖亮全;庄曜宇 | 申请(专利权)人: | 财团法人资讯工业策进会 |
主分类号: | G06F19/20 | 分类号: | G06F19/20 |
代理公司: | 北京律诚同业知识产权代理有限公司11006 | 代理人: | 徐金国 |
地址: | 中国台湾台北市*** | 国省代码: | 台湾;71 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用以 分析 细菌 菌种 序数 系统 及其 方法 | ||
技术领域
本发明涉及一种用以分析细菌菌种的测序数据的系统及其方法,且特别是涉及一种针对单一检体及跨检体重复序列进行检测的用以分析细菌菌种的测序数据的系统及其方法。
背景技术
随着生物科技的日益发展,基因测序的工作越来越完整,对于人体共生菌的研究变得非常重要。目前已知人体身上约100兆的共生菌所组成,这些共生菌的数量比人体全部的细胞整整多了十倍。此外,人体的肠胃道、皮肤、口腔、呼吸道、生殖道等等地方也有共生菌的存在,统称为菌相,这些菌相与免疫、代谢、发育,神经系统等等皆息息相关。
其中,科学家们已知利用16S核糖体RNA(16S rRNA)序列的测序,解构出人类肠道菌的种类分布,因此可利用将16S rRNA基因标定并扩增复制序列后,经过测序及根据测序的质量做前处理,再将序列与16S rRNA数据库做组序、贴序的步骤,以区分出物种。而相似性高的物种将会归类到同一个可操作性的分类单位体(operational taxonomic unit,OTU),最后统计分析不同检体的菌向差异。
然而,在传统上,若要分析多组检体数据,则需要耗费的时程及运算量是相当可观的,因此如何减少系统的运算量,以提升分析检体数据的速度,已成为本领域需要解决的问题之一。
发明内容
为解决上述的问题,本发明的一个方面提供一种用以分析细菌菌种的测 序数据的系统。用以分析细菌菌种的测序数据的系统包含:单一检体去重复序列模块、跨检体重复序列判断模块、重复序列记录模块以及运算贴序模块。单一检体去重复序列模块用以搜索第一基因样本序列中的第一保守区域及特定变异区域,并将第一保守区域移除。跨检体重复序列判断模块用以判断特定变异区域是否存在与第二基因序列中的另一特定变异区域相同的跨检体子序列。重复序列记录模块用以当特定变异区域存在与第二菌体样本中的另一特定变异区域相同的跨检体子序列时,储存跨检体子序列至记录表中。运算贴序模块用以当存在跨检体子序列时,将跨检体子序列与数据库模块中的多个已知菌种基因序列进行比对,以分析第一基因样本序列与第二基因样本序列中对应跨检体子序列的菌种。
本发明的另一方面提供一种用以分析细菌菌种的测序方法。分析细菌菌种的测序方法包含:搜索第一基因样本序列中的特定变异区域以及搜索第二基因样本序列中的另一特定变异区域;判断特定变异区域与另一特定变异区域是否存在相同的跨检体子序列;当特定变异区域与另一特定变异区域存在相同的跨检体子序列时,储存跨检体子序列至记录表中;当存在跨检体子序列时,将跨检体子序列与数据库模块中的多个已知菌种基因序列进行比对,以分析该第一基因样本序列与第二基因样本序列中对应跨检体子序列的菌种。
综上所述,本发明的技术方案与现有技术相比具有明显的优点和有益效果。通过上述技术方案,可达到相当的技术进步,并具有产业上的广泛利用价值,本公开内容可减少用以分析细菌菌种的测序数据的系统的运算量,以达到提升分析检体数据速度的功效。
附图说明
为了使本发明的上述和其他目的、特征、优点与实施例能更明显易懂,提供附图如下:
图1是根据本发明一实施例绘示的一种用以分析细菌菌种的测序数据的系统的方块图;
图2是根据本发明一实施例绘示的一种用以分析细菌菌种的测序数据的方法的流程图;
图3是根据本发明一实施例绘示的一种基因样本序列的示意图;
图4A-4C是根据本发明一实施例绘示的一种基因片段的示意图。
具体实施方式
参照第1图,图1是根据本发明一实施例绘示的一种用以分析细菌菌种的测序数据的系统100的方块图。
用以分析细菌菌种的测序数据的系统100包含:单一检体去重复序列模块110、跨检体重复序列判断模块120、重复序列记录模块130以及运算贴序模块140。单一检体去重复序列模块110用以搜索第一基因样本序列中的第一保守区域及特定变异区域,并将第一保守区域移除。跨检体重复序列判断模块120用以判断特定变异区域是否存在与第二基因序列中的另一特定变异区域相同的一跨检体子序列。重复序列记录模块130用以当特定变异区域存在与第二菌体样本中的另一特定变异区域相同的跨检体子序列时,储存跨检体子序列至一记录表135中。运算贴序模块140用以当存在跨检体子序列时,将跨检体子序列与一数据库模块150中的多个已知菌种基因序列进行比对,以分析第一基因样本序列与第二基因样本序列中对应跨检体子序列的菌种。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于财团法人资讯工业策进会,未经财团法人资讯工业策进会许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610083766.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种人类蛋白质亚细胞位置预测方法
- 下一篇:一种评估肿瘤负荷变化的方法和系统
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用