[发明专利]通过具有不定误差的读段的追踪重构在审
申请号: | 201980054964.5 | 申请日: | 2019-06-24 |
公开(公告)号: | CN112673431A | 公开(公告)日: | 2021-04-16 |
发明(设计)人: | S·M·耶卡尼;M·Z·拉奇 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G16B30/10 | 分类号: | G16B30/10;G16B30/20 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 黄倩 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 通过 具有 不定 误差 追踪 | ||
1.一种从存储数字数据的脱氧核糖核酸(DNA)链的多个读段生成共有序列的方法,所述多个读段是通过如下测序技术以小于30×的覆盖范围而被生成的,所述测序技术将突发性误差引入所述多个读段中的读段,所述方法包括:
从共有输出序列的生成中省略所述读段中包含所述突发性误差的一部分;以及
利用从所述读段中包含所述突发性误差的所述部分的任一侧起的所述读段的部分来生成所述共有输出序列。
2.根据权利要求1所述的方法,其中所述多个读段是以小于25×的覆盖范围而被生成的。
3.根据权利要求1或2所述的方法,还包括:通过标识所述读段中与以下至少一项侧面相接的位置来标识所述读段中包含所述突发性误差的所述部分的末端:与所述共有序列相匹配的后向匹配区域、或者与通过从所述多个读段中的至少两个其他读段的序列进行多数投票而生成的序列相匹配的前向匹配区域。
4.根据权利要求1或2所述的方法,其中所述共有序列是通过以下而被生成的:将比较的位置处的针对所述多个读段的值进行比较,同时基于插入、缺失和取代而将所述多个读段彼此进行比对。
5.一种方法,包括:
在来自多核苷酸测序仪的多个序列读段中的读段中,标识相对于所述多个序列读段的共有输出序列的不定误差,所述不定误差位于第一位置处;
定义包括所述读段中的第二位置的搜索窗口,所述第二位置位于至少延迟超过所述第一位置的一个距离处;
计算针对所述搜索窗口中的子序列与比较序列的编辑距离,所述比较序列包括后向匹配序列,所述后向匹配序列是所述多个序列读段中的至少两个序列读段中的对应位置的共有输出序列;
标识所述搜索窗口中具有小于阈值的编辑距离的子序列;
基于所述后向匹配序列的长度,选择所述子序列内的候选位置;
将与来自所述多个序列读段的至少两个其他读段的比较的位置设置为所述读段中的第三位置,所述第三位置是超过所述候选位置的一个位置;以及
在所述第三位置处从所述多个序列读段确定所述共有输出序列。
6.根据权利要求5所述的方法,其中所述多个序列读段的所述共有输出序列是通过以下而被确定的:标识针对考虑位置的多数投票,同时考虑插入误差、缺失误差和取代误差,并且所述多个序列读段的所述共有输出序列从当前考虑的碱基调用位置顺序地进行到相邻的碱基调用位置。
7.根据权利要求5或6所述的方法,还包括:标识所述搜索窗口中具有小于所述阈值的编辑距离的第二子序列,并且选择所述子序列或所述第二子序列中最接近所述候选位置的一个子序列。
8.根据权利要求5或6所述的方法,其中所述比较序列还包括前向匹配序列,所述前向匹配序列是从来自所述多个序列读段的所述至少两个其他读段的针对碱基调用的多数共有投票。
9.根据权利要求8所述的方法,其中所述延迟的长度在4到10个位置之间,所述搜索窗口的长度在9到20个位置之间,所述后向匹配序列的长度在1到11个位置之间,并且所述前向匹配序列的长度在1到10个位置之间。
10.根据权利要求9所述的方法,其中所述后向匹配序列的所述长度和所述前向匹配序列的所述长度的总和在5到15个位置之间。
11.根据权利要求8所述的方法,其中所述延迟的长度、所述搜索窗口的长度、所述后向匹配序列的长度和所述前向匹配序列的长度分别通过以下来实验确定:测试针对每个长度的不同值,并且选择导致从所述多个序列读段恢复出最大数目的读段集群的值的组合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980054964.5/1.html,转载请声明来源钻瓜专利网。