[发明专利]基因文件的上下文感知增量算法在审

申请号：	201880054764.5	申请日：	2018-08-09
公开（公告）号：	CN111095421A	公开（公告）日：	2020-05-01
发明（设计）人：	A·马哈拉纳;M·C·康斯坦丁内斯库	申请（专利权）人：	国际商业机器公司
主分类号：	G16B20/00	分类号：	G16B20/00;G06F16/2458
代理公司：	北京市中咨律师事务所 11247	代理人：	李永敏;于静
地址：	美国***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基因文件上下文感知增量算法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

提供了一种用于压缩多个基因组数据文件的至少一个增量文件的方法、计算机系统和计算机程序产品。本发明可以包括接收多个基因组数据文件作为输入。本发明还可以包括通过遍历所接收的多个基因组数据文件来确定多个行。然后，本发明可以包括比较与所遍历的多个基因组数据文件相关联的多个行。本发明可以进一步包括基于所比较的多行来生成多个所得的增量文件。本发明还可以包括通过利用通用文件压缩器来压缩所生成的多个所得的增量文件。

背景技术

本发明总体上涉及计算领域，并且更具体地涉及计算生物学。

基因组分析流水线(流水线)涉及预处理、变体发现和调用集细化的多个步骤，以便从原始序列读取中提取生物学上有意义的输出。在每个此类步骤中，流水线都会生成输出文件，输出文件的大小在兆字节到TB字节之间，具体取决于输入序列读取的大小。

对这些文件的检查显示，并非每一步都保存到输出文件的所有信息都是新生成的。相当数量的数据只是从输入文件中转移到输出中，从而在流水线执行期间甚至之后对存储造成不必要的压力。流水线的每个阶段可能要花费数小时或数天，因此中间文件将保留以备将来调查、更改或在流水线中分支。

发明内容

本发明的实施例公开了一种用于压缩多个基因组数据文件的至少一个增量文件的方法、计算机系统和计算机程序产品。本发明可以包括接收多个基因组数据文件作为输入。本发明还可以包括通过遍历所接收的多个基因组数据文件来确定多个行。然后，本发明可以包括比较与所遍历的多个基因组数据文件相关联的多个行。本发明可以进一步包括基于所比较的多行来生成多个所得的增量文件。本发明还可以包括通过利用通用文件压缩器来压缩所生成的多个所得的增量文件。

附图说明

通过以下结合附图对示例性实施例的详细描述，本发明的这些和其他目的，特征和优点将变得显而易见。附图的各种特征未按比例绘制，因为图示是为了清楚起见，以帮助本领域技术人员结合详细描述来理解本发明。

在附图中：

图1示出了根据至少一个实施例的联网计算机环境；

图2是示出了根据至少一个实施例的用于压缩基因组数据文件的增量文件的过程的操作流程图；

图3A是示出了根据至少一个实施例的用于压缩基因组数据文件的增量文件的示例性过程的操作流程图；

图3B是示出了根据至少一个实施例的用于压缩序列比对(Sequence Alignment)/图谱格式(Map format，SAM)的基因组数据文件的增量文件的示例性过程的操作流程图；

图3C是示出了根据至少一个实施例的用于压缩以变体调用格式(Variant CallFormat，VCF)的基因组数据文件的增量文件的示例性过程的操作流程图；

图4是示出根据至少一个实施例的用于比较两个基因组数据文件的示例性过程的框图；

图5是示出根据至少一个实施例的用于识别以序列比对/图谱格式(SAM)的基因组数据文件的分层结构的示例性过程的操作流程图；

图6是示出了根据至少一个实施例的用于识别以变体调用格式(VCF)的基因组数据文件的分层结构的示例性过程的操作流程图；

图7是根据至少一个实施例的图1所示的计算机和服务器的内部和外部组件的框图；