[发明专利]用于编码和解码数据结构的质量值的方法在审
申请号: | 201680091520.5 | 申请日: | 2016-10-12 |
公开(公告)号: | CN110168650A | 公开(公告)日: | 2019-08-23 |
发明(设计)人: | J·伏格斯;M·海纳斯;J·奥斯特曼 | 申请(专利权)人: | 汉诺威戈特弗里德威廉莱布尼茨大学;斯坦福大学 |
主分类号: | G16B30/00 | 分类号: | G16B30/00;H03M7/30 |
代理公司: | 北京市中伦律师事务所 11410 | 代理人: | 杨黎峰;钟锦舜 |
地址: | 德国*** | 国省代码: | 德国;DE |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 连续片段 基因座 参考序列 对齐 索引处 确定性 数据结构 似然度 导出 索引 编码数据结构 数据处理系统 字母表 符号字母表 符号相关 符号序列 分配 | ||
本发明涉及用于编码数据结构的质量值的方法,其中,所述数据结构包括多个连续片段,每个连续片段包括从符号字母表导出的符号序列并且对应于一个或多个参考序列中的一个参考序列的片段,其中,每个连续片段与所述参考序列之一的基因座索引对齐,并且所述连续片段的至少一部分在对齐的基因座索引处重叠,并且还包括多个质量值,每个质量值从质量值字母表导出并且被分配给连续片段之一的对应符号,其中,每个质量值指示对应连续片段中的对应符号正确的似然度,其中,该方法包括能够由数据处理系统执行的步骤:确定特定基因座索引处的质量值,质量值被分配给与所述特定基因座索引对齐的连续片段的符号;以及基于所确定的质量值计算特定基因座索引处的估计确定性,其中,所述估计确定性指示与对应符号相关的所确定的质量值中每个质量值的正确性的似然度;以及通过基于所计算的估计确定性将每个确定的质量值变换为变换后质量值来对所确定的质量值进行编码。
技术领域
本发明涉及一种用于编码数据结构的质量值的方法和对应的设备,尤其是存储为这种数据结构的基因组数据的质量值。本发明还涉及一种用于解码通过本发明的方法编码的数据结构的质量值的方法。
背景技术
由于新型高通量测序(HTS)和/或下一代测序(NGS)技术,所以可承受大量遗传信息的测序。由于这种数据浮动,与测序成本相比,IT成本可能成为主要障碍。需要对基因组数据进行高性能压缩以降低存储大小和传输成本。
测序机产生例如DNA材料的片段的大量读出信息(简称为读数)。在测序过程中,在读出信息中为每个核苷酸指定质量值,也称为质量得分。这些质量值表明对应核苷酸被正确读出的置信度。读出信息(例如核苷酸序列连同相关的质量值)和相关的读数标识符通常以FASTQ格式存储。
在Peter J A Cock、Christopher J Fields、Naohisa Goto、Michael L Heuer和Peter M Rice的“The Sanger FASTQ format for sequences with quality scores,andthe Solexa/lllumina FASTQ variants”(Nucleic Acids Research,38(6):1767-1771,2010)中,公开了用于具有质量得分的序列的FASTQ文件格式。
生成原始数据后,一些最常见的后续处理步骤是:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于汉诺威戈特弗里德威廉莱布尼茨大学;斯坦福大学,未经汉诺威戈特弗里德威廉莱布尼茨大学;斯坦福大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201680091520.5/2.html,转载请声明来源钻瓜专利网。