[发明专利]通过模块化选择实现的生物信息项目自动分析方法及系统有效
申请号: | 201410742403.3 | 申请日: | 2014-12-08 |
公开(公告)号: | CN104484582B | 公开(公告)日: | 2018-04-24 |
发明(设计)人: | 苏海桥;蔡雄颖;唐启覃;李卡麟;郑媛;周良风;梁绍光;陈勇;刘娜;李国庆 | 申请(专利权)人: | 深圳华大基因科技服务有限公司 |
主分类号: | G06F19/10 | 分类号: | G06F19/10 |
代理公司: | 广州三环专利商标代理有限公司44202 | 代理人: | 梁顺宜,郝传鑫 |
地址: | 518083 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 通过 模块化 选择 实现 生物 信息 项目 自动 分析 方法 系统 | ||
技术领域
本发明涉及生物信息分析领域,尤其涉及一种通过模块化选择实现的生物信息项目自动分析方法及系统。
背景技术
随着生命科学领域实验技术的快速发展,科学仪器的自动化、智能化水平日益提高,数据产出能力有了质的飞跃。同时,生命科学研究对分析测试的要求无论在样品数量、分析周期、分析项目和数据准确性等方面都提出了更高的标准和要求,生物实验室产出的信息呈几何级数增长。
随着人类基因组计划、人类单体型计划、千人基因组计划的完成,以及各种模式生物的基因组测序的完成。同时越来越多的物种的基因组序列被科学界揭示。人类已经在功能基因组学方面累积了很多令人激动的成果。尤其是现阶段人们开始研究基因组数据、转录组数据、表观基因组、小RNA、非编码RNA等并利用其中包含的信息来认识生物的本源;并为基因工程、酶工程、合成生物学等技术提供理论支持;为人类抗击如癌症、帕金森病、各种遗传病等构建基础。一个项目可以产生几百Gb的数据,甚至是上Pb级的数据,项目类型越来越多,针对特定分析目的而专门构建一套分析工具将产生巨大的时间成本和人力成本。本系统有提供了一种在生物信息学面临大数据,项目分析多样性,分析流程构建高成本的背景下的一种适用性广、高效、稳定、可扩展式的解决方案。
在传统的生物实验室中,由于数据类型多样、格式不一,数据的保存、交换、查询、分析、维护都很不方便,严重阻碍了研究人员之间的信息提交。在生物信息学中涉及到的多种分析流程中,往往是1,一个总的流程,在linux下设置流程参数,然后投任务;或者是2、一步一步的跑流程,每一步运行一个小的脚本,完成一个小项的分析,尤其是每一步完成后都需要准备分析脚本、等待分析完成、人工查看结果是否正常才能进入下一步的分析。流程繁琐且极度消耗宝贵的人力资源和时间,无法高效、自动可靠地得到所需的分析结果。
发明内容
本发明的目的提供一种通过模块化选择实现的生物信息项目自动分析方法和系统,能有效简化现有的生物信息分析的过程和步骤,减少工作量,高效得到分析结果。
本发明提供了一种通过模块化选择实现的生物信息项目自动分析方法,包括步骤:
步骤一:创建项目并存于业务管理系统中,每个项目包括多个子项目;并由用户根据子项目和任务信息直接选择所述创建项目中需要的分析模块;所述子项目的类型包括只过滤子项目和标准化子项目;
步骤二:
当所述子项目的类型为标准化子项目时,则该子项目对应的样品在经测序仪测序的同时,供用户选择对该样品创建包括过滤分析、表达谱定量分析、差异比较分析、Cluster聚类分析、靶基因预测分析、KOGO分析和碱基编辑分析中的一种或多种的模块化的标准流程分析,且在创建每个标准流程分析过程中由用户根据当前子项目的样品情况、测序类型、分析目的选择匹配的过滤模块及输入对应的比对参数;经测序仪测序完成后,根据所述过滤模块及比对参数对每一样品数据进行过滤,从而去掉不符合比对参数的样品数据;然后再运用所创建的标准流程分析模块对符合比对参数的每一样品数据进行分析,从而生成分析结果,分析结果包括子项目信息和对应的样品信息;
当所述子项目的类型为只过滤子项目,则根据选择的子项目类型和任务信息,依次从下机数据管理系统中获取对应的且经过测序仪测序后的样品数据;且每获取一个样品数据,即根据预设的参数配置运用统一的过滤标准进行过滤与分析,从而过滤不符合参数配置的样品数据;且待获取的所有样品数据过滤与分析完后,生成分析结果,分析结果包括子项目信息和对应的样品信息;
步骤三:由用户选择质控模块以及输入对应的质控参数来对所述分析结果进行质控,若质控通过,则直接输出该分析结果;若质控不通过,且所述分析结果和质控标准的差距在阈值范围内,则重新编辑所述样品数据或过滤/质控参数后再次进行步骤二的过滤与分析过程,直至分析结果通过质控;若质控不通过,且所述分析结果和质控标准的差距超过阈值,则编辑所述样品且废弃相关Lane,并在所述业务管理系统中重新下单。
作为上述技术方案的改进,还包括步骤:将所述分析结果进行存储备份;而优选在所述步骤三中:若质控不通过且所述分析结果和质控标准的差距在阈值范围内,在重新编辑所述样品数据是可以单个样品数据编辑或样品批量编辑。
作为上述技术方案的改进,所述比对参数存于数据库中;该数据库为公共数据库或个人数据库,在创建每个标准流程分析过程中由用户在所述个人数据库中选择建立新的数据库记录以及根据当前子项目的样品情况、测序类型、分析目的向所述新的数据库记录中输入对应的所述比对参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳华大基因科技服务有限公司,未经深圳华大基因科技服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410742403.3/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用