[发明专利]序列数据流的处理在审

申请号：	201880032018.6	申请日：	2018-03-23
公开（公告）号：	CN110637341A	公开（公告）日：	2019-12-31
发明（设计）人：	马丁·史密斯;詹姆斯·弗格森;丹尼斯·布纳迪	申请（专利权）人：	加尔文医学研究所
主分类号：	G16B30/00	分类号：	G16B30/00;G16B50/30
代理公司：	31283 上海弼兴律师事务所	代理人：	薛琦
地址：	澳大利亚***	国省代码：	澳大利亚;AU
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	计数器匹配分数数据库存储流数据关联排序匹配饱和非易失存储器数据流接收序列数据记录序列接收排序器阈值时
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开涉及用于处理排序数据流的方法和系统。系统从排序器接收序列且将其存储为数据库上的数据记录。序列与表示次数的计数器相关联，关联的序列已经被排序。系统从序列接收进一步的序列作为流数据。在接收进一步序列时，系统匹配流数据与存储的序列以决定匹配分数。在匹配分数超过数据库中的多个序列中的一个的匹配阈值时，根据匹配分数选择数据库中多个序列中的这一个，并且如果与选择的序列相关联的计数器值低于饱和阈值，则在非易失存储器上存储进一步序列。如果计数器值高于饱和阈值，则系统也终止接收。

相关申请的交叉引用

本申请要求2017年3月24日提交的澳大利亚临时申请2017901072和2017年11月2日提交的澳大利亚临时申请2017904458的优先权，二者的内容通过引用结合于此。

技术领域

本公开涉及用于处理序列数据流的方法和系统。特别是但不限于，本公开涉及处理来自纳米孔排序器的数据流。

背景技术

在生物系统中测量独特分子的丰度和变化可用于识别细胞状态、环境响应和病理进展。利用测序技术对分子浓度进行实验定量受到采样深度的限制。实际上，考虑到大多数方法的有限取样深度或时间，高度丰富的分子可以掩盖低浓度分子的存在。检测低丰度分子是很重要的，因为它们可以具有不同的功能或鉴别特征。例如，‘看家(housekeeping)’蛋白质或RNA通常非常丰富，而调节性大分子在较弱的水平上表达，使它们在随机抽样时更难表征。例如，调节分子具有更重要或极端的作用，并提供关于细胞动力学的独特信息。

纳米孔排序提供了以前不可能的新应用。特别是，序列数据流的可用性允许对序列数据进行实时处理。然而，在接收到序列数据流时，处理排序数据流以得出有意义的结论，这是一个挑战。这一挑战主要来自于大量的有噪声的数据，这些数据需要与潜在的大量引用进行匹配。目前，这种过度的处理时间限制了使用纳米孔进行实时分析的应用。随着越来越多的平行孔进入市场，这个问题预计会随着纳米孔排序器的出现而增加。

发明内容

本公开提供用于处理来自排序器(例如纳米孔)的流数据的方法。数据库存储先前从排序器接收的序列以及每个存储序列的计数器。当接收到流数据时，处理器将流数据与存储序列逐步匹配。一旦找到匹配，处理器就会检查匹配序列的计数器。如果计数器低于阈值，则处理器保持当前序列，但如果计数器高于阈值，则处理器停止接收该序列并继续到下一个序列。

一种用于处理来自排序器的流数据的方法，包括：

从排序器接收多个序列；

将多个序列的每一个存储为数据库上的数据记录，多个序列的每一个与表示次数的计数器相关联，关联的序列已经被排序；

从排序器逐步接收进一步序列作为流数据；

在接收进一步序列时，匹配流数据与数据库中多个序列的每一个，以对数据库的记录中多个序列的每一个决定匹配分数；

在匹配分数超过数据库中的多个序列中的一个的匹配阈值时，根据匹配分数选择数据库中多个序列中的这一个；

在与选择的序列相关联的计数器值低于饱和阈值的地方，在非易失存储器上存储进一步序列；及

在与选择的序列相关联的计数器值高于饱和阈值的地方，终止接收进一步序列。

有选择地存储和拒绝允许通过丰度对序列进行实时过滤是一个技术优势。因此，由于拒绝了最大丰度的序列(高于饱和阈值)，所以整个硬盘存储需求减少。同时，存储最小丰度的序列(低于饱和阈值)，这是主要利益，用于进一步分析。

终止接收进一步序列可包括发送拒绝信号到排序器，以在排序器达到进一步序列的终端前中止排序进一步序列，并且在完全排序进一步序列前允许排序接下来的序列。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载