[发明专利]通过具有不定误差的读段的追踪重构在审
申请号: | 201980054964.5 | 申请日: | 2019-06-24 |
公开(公告)号: | CN112673431A | 公开(公告)日: | 2021-04-16 |
发明(设计)人: | S·M·耶卡尼;M·Z·拉奇 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G16B30/10 | 分类号: | G16B30/10;G16B30/20 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 黄倩 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 通过 具有 不定 误差 追踪 | ||
多核苷酸测序生成多核苷酸分子的多个读段。读段中的许多或所有包含误差。追踪重构需要由多核苷酸测序仪生成的多个读段,并使用这些多个读段来准确地重构多核苷酸分子的核苷酸序列。一些读段可以包含无法被校正的误差。因此,可能存在可以在其整个长度上被使用的读段以及具有无法被校正的不定误差的其他读段。当不定误差被发现时,读段具有误差的部分被跳过,并且读段在误差之后的序列被用于重构追踪,而不是丢弃整个读段。跳过的读段的量由误差后与其他读段的共有序列相匹配的子序列的定位确定。分析在由匹配的定位确定的定位处继续。
背景技术
当今世界上许多数据被存储在磁性和光学介质上。磁带技术最近发现存储185TB的单个磁带盒的显著密度提高,并且是当今商业上可用的最密集存储形式,大约为10GB/mm3。最近的研究报告了能够存储1PB的光盘的可行性,得到约为100GB/mm3的密度。尽管具有该提高,但是存储泽字节(270字节或十亿兆兆字节)的数据仍将花费数百万个单位,并使用大量的物理空间。但是存储密度只是存储介质的一个方面;耐用性也很重要。旋转盘的使用期限为3至5年,并且磁带的使用期限为10至30年。长期档案存储需要数据刷新,以替换故障单元并刷新技术。
对数据存储的需求呈指数增长,但是现有存储介质的容量没有跟上。脱氧核糖核酸(DNA)的聚合物能够以高密度存储信息。理论密度极限为1艾字节/mm3(109GB/mm3)。不到100克的DNA可以存储当今世界上所有的人造数据。DNA也很持久,在某些存储条件下,观察到的半衰期超过500年。因此,DNA由于其高信息密度和长寿命而吸引人作为信息存储技术。DNA作为存储介质的又一优点是其持续的相关性。存储介质的操作系统和标准将发生变化,从而可能使旧存储系统上的数据无法访问。但是基于DNA的存储具有永恒相关性的益处:只要存在基于DNA的生命,就会有强有力的理由维护能够读取和操纵DNA的技术。
尽管DNA存储系统具有优点,但它必须克服若干挑战。例如,DNA合成、存储期间的降解以及测序都是潜在的误差来源。因此,由测序仪输出的DNA序列可能与最初被提供给寡核苷酸合成仪的DNA序列不同。
发明内容
该发明内容被提供来以简化的形式介绍对于下面在详细描述中进一步被描述的概念的选择。该发明内容不旨在标识所要求保护的主题的关键特征或者必要特征,也不旨在被用于限制所要求保护的主题的范围。
当前由计算机用于存储文本文件、音频文件、视频文件、软件等种类的二进制数据可以被表示为多核苷酸中的一系列核酸(即,DNA或核糖核酸(RNA))。有多种技术用于将二进制数据的0和1表示为一系列核苷酸。多种技术是本领域的普通技术人员已知的。多核苷酸序列被设计为保存二进制数据,然后用寡核苷酸合成仪来合成。合成的多核苷酸被放入存储装置中,最终由多核苷酸测序仪读取。由多核苷酸测序仪生成的数据被译码以恢复所存储的二进制数据。写入和读取多核苷酸序列的机器并非100%准确,并且会引入误差。一些类型的误差(诸如核苷酸的插入、缺失或取代)可以被标识和校正。其他类型的误差(尤其是“突发性”误差,其中在彼此相邻或接近的局部“突发”中存在多个误差)可能很难或无法校正。因此,利用一些译码技术,包括突发性误差的序列读段(read)可能无法使用。本公开提供了从多核苷酸序列的读段提取有用信息的技术,该多核苷酸序列包括突发性误差或其他类型的不定误差(indeterminant error)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980054964.5/2.html,转载请声明来源钻瓜专利网。