[发明专利]使用分级反向索引表的DNA比对有效

专利信息
申请号: 201680061446.2 申请日: 2016-10-21
公开(公告)号: CN108140071B 公开(公告)日: 2022-04-29
发明(设计)人: M·B·多尔;J·D·加玛尼;S·V·伍德;D·G·阿拉斯塔斯;M·A·亨特 申请(专利权)人: 相干逻辑公司
主分类号: G16B40/00 分类号: G16B40/00;G16B20/20
代理公司: 中国贸促会专利商标事务所有限公司 11038 代理人: 鲍进
地址: 美国得*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 使用 分级 反向 索引 dna
【说明书】:

用于构建可用于将检索序列与参考数据匹配的分级索引表的系统和方法。所述索引表可经构建以含有与给定长度的所有子序列的穷尽性列表相关联的条目,其中每个条目含有在所述参考数据中的每个子序列的匹配的数量和位置。可以迭代方式构建所述分级索引表,其中基于匹配的数量大于一组相应阈值中的每一个,选择性地和迭代地构建用于每个延长子序列的条目。所述分级索引表可用于搜索在检索序列和参考数据之间的匹配,并且对每个相应候选匹配执行错配鉴别和表征。

技术领域

本申请大体上涉及将数据模式映射到参考数据组上,且更具体地说,涉及在DNA测序和DNA比对应用中执行这类数据比对或模式匹配。

背景技术

现代技术涉及越来越大量数据的收集和处理。其中,所谓的“大数据”的应用和使用情况范围是数据挖掘、播发、机器学习和DNA测序。在许多情况下,有必要搜索在少量样品数据和大得多的参考数据组之间的匹配。随着参考数据组的尺寸增加,样本数据与此参考数据组的比对(模式匹配)变成以指数方式更为计算密集型任务。

数据比对的示例性案例在DNA比对领域中进行。活生物体由细胞构成并且细胞的操作和繁殖受从一代细胞传送到下一代的基因信息控制。

物种和个体生物体的基因信息的详细知识对于更精确生命科学的保持巨大希望,从而支持改善的健康护理、农业、环境管理和犯罪解析。

实现这些益处的障碍中的一个为对生物体的基因信息进行测序的成本。为了做到这一点的技术已经在数十年的最后十年内显著改善,使得将成本减少到小于US $1000/人表现为可实现的。然而,仍然存在数据的完整性、精确度、解释的问题,和可靠诊断疾病的问题。从生物样品获取基因信息的天数也是需要快速响应的用途的障碍,如已知供急救室患者使用的对于敏感个体具有严重副作用的医药适合性。

因此,期望用于数据比对并且具体来说DNA测序的改善的技术和工具。

发明内容

公开用于将数据模式映射到显著地较大数据组上的系统和方法的各种实施例。在一些实施例中,较大数据组可为参考数据组。在一些实施例中,较大数据组可为从头测序的结果,其中多个数据模式用于构建与多个数据模式自一致的大数据组。本文中呈现的许多实施例涉及DNA比对的具体使用案例,其中参考数据组为参考基因组并且数据模式为衍生自DNA链的短读数(SR)的一串DNA碱基。然而,本文中详述的方法通常适用于将任何数据模式映射到较大数据组上的问题。本文关于DNA比对所描述的方法的说明旨在有助于解释,并且不意指以任何方式限制本发明的范围。本领域中技术人员将容易地参看本文所描述的方法可如何应用于除DNA比对以外的数据比对或模式匹配方法。

在一个实施例中,可生成基于参考数据的分级索引表。分级索引表可包含其中多个数据段中的每一个所在的在参考数据中的位置。在计算机科学中,此形式的索引表可被称作反向索引表。分级索引表可用于将检索序列与参考数据匹配。索引表可经构建以含有与给定长度的所有子序列的穷尽性列表相关联的条目,其中每个条目含有在参考数据中的每个子序列的匹配的数量和位置。可以迭代的方式构建分级索引表,其中基于匹配的数量大于一组相应阈值中的每一个,选择性地和迭代地构建用于每个延长子序列(层次的更深层级)的条目。对于一些子序列,匹配的数量将相等或小于当前阈值,为此方法生成在表中的末端条目。有限长度的参考数据意指,可发现足够长子序列的匹配的数量将低于给定正阈值。然而,据了解,存在大于1000bp长并且出现数千次的基因组的子序列。对于完全地索引,这些序列可为或不为所感兴趣的;并且在后一种情况下,某些序列可排除掉,而非包括于分级索引表中。

用于在参考基因组中对SR执行候选位置选择(鉴别匹配模式)的方法可包括通过以迭代方式执行以下来检索对应分级索引表。可基于一段SR,生成“印迹”(由一串DNA碱基组成),并且其用于从与参考基因组相关联的索引表选择SR的至少一个候选位置。印迹的长度可延长以便移动到分级索引表的更深层级。一旦达到分级索引表的末端条目,就可停止迭代,并且可输出候选位置。使用分级索引表可操作以大大地增加可出现候选选择的速度。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于相干逻辑公司,未经相干逻辑公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201680061446.2/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top