[发明专利]有噪声的多核苷酸序列读段的高效聚类有效
申请号: | 201780060694.X | 申请日: | 2017-09-25 |
公开(公告)号: | CN109804565B | 公开(公告)日: | 2023-06-13 |
发明(设计)人: | L·策泽;S·耶卡尼恩;S·D·安格;K·施特劳斯;C·拉施特奇安;R·坎南;K·玛卡彻夫 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | H03M7/30 | 分类号: | H03M7/30 |
代理公司: | 北京世辉律师事务所 16093 | 代理人: | 王俊 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 噪声 多核苷酸 序列 高效 | ||
1.一种用于提高多核苷酸测序的准确性的系统,所述系统包括:
多核苷酸测序仪,被配置为从具有不同核苷酸序列的多个DNA链生成多个DNA读段;
至少一个处理单元;
与所述处理单元通信的存储器;以及
聚类模块,所述聚类模块被存储在所述存储器中,并且在所述处理单元上可执行以通过如下方式将所述多个DNA读段划分成簇:首先将由随机化的局部敏感散列(LSH)确定的具有相同散列的DNA读段分组到桶中,并且然后至少部分地基于相同桶中的DNA读段的签名的相似性将所述相同桶中的DNA读段分组成簇,所述签名将编辑距离空间确定性地嵌入到汉明空间中。
2.根据权利要求1所述的系统,其中所述聚类模块包括编辑距离模块,所述编辑距离模块被存储在所述存储器中,并且在所述处理单元上可执行以:基于将所述多个DNA读段中的第一读段改变为所述多个DNA读段中的第二读段的插入、删除和替代的最小数目,来计算所述多个DNA读段中的所述第一读段与所述多个DNA读段中的所述第二读段之间的编辑距离。
3.根据权利要求1所述的系统,其中所述聚类模块包括散列模块,所述散列模块至少部分地基于数字的随机排列来确定所述随机化的LSH,并且其中所述签名包括二进制签名。
4.根据权利要求1所述的系统,其中所述多个DNA读段包括超过200000个读段。
5.根据权利要求1所述的系统,还包括签名模块,所述签名模块被存储在所述存储器中,并且在所述处理单元上可执行以:
将所述多个DNA读段中的一个DNA读段划分成子读段;
查找针对所述多个DNA读段中的所述子读段的k元组;
基于与比较串的比较将所述k元组编码为位串,所述比较串包括长度为k的所有可能子串;以及
将所述位串级联成签名。
6.根据权利要求1所述的系统,还包括设备接口,所述设备接口被配置为从所述多核苷酸测序仪接收所述多个DNA读段。
7.根据权利要求1所述的系统,其中所述聚类模块包括散列模块,所述散列模块至少部分地基于与DNA读段内的随机选择的锚定串的出现相邻的核苷酸来确定所述随机化的LSH。
8.根据权利要求1所述的系统,其中所述聚类模块包括划分模块,所述划分模块至少部分地基于相同桶中的两个DNA读段之间在所述汉明空间中的差小于阈值距离来将所述两个DNA读段分配给相同簇。
9.根据权利要求1所述的系统,其中所述至少一个处理单元包括具有相同指令多数据(SIMD)或单程序多数据(SPMD)架构的中央处理单元(CPU)。
10.根据权利要求1所述的系统,其中所述至少一个处理单元包括多核处理系统,并且分组到相同桶中的所有DNA读段由所述多核处理系统的单个核处理,以用于将DNA读段分组成簇。
11.根据权利要求1所述的系统,其中所述LSH的散列长度是10。
12.根据权利要求1所述的系统,其中所述聚类模块将所述DNA读段迭代地分组成桶和簇,并且创建桶和计算簇的过程迭代地重复约250次。
13.根据权利要求1所述的系统,其中如通过将DNA链的DNA读段中的至少四分之三的DNA读段包括在同一簇中所确定的,99%以上的簇被准确地形成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780060694.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:电源装置、以及,电源装置的控制方法
- 下一篇:使用极化码编码数据的方法和装置