[发明专利]用于生物信息数据的紧凑表示的方法和设备在审
申请号: | 201680090052.X | 申请日: | 2016-10-11 |
公开(公告)号: | CN110168649A | 公开(公告)日: | 2019-08-23 |
发明(设计)人: | 乔吉奥·索亚;丹尼尔·伦齐 | 申请(专利权)人: | 耶诺姆希斯股份公司 |
主分类号: | G16B30/00 | 分类号: | G16B30/00;G16B50/00 |
代理公司: | 上海华诚知识产权代理有限公司 31300 | 代理人: | 徐颖聪 |
地址: | 瑞士*** | 国省代码: | 瑞士;CH |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 方法和设备 核苷酸序列 核苷酸序列编码 基因组序列数据 基因组测序仪 生物信息数据 匹配准确度 参考序列 语法元素 熵编码器 源模型 比对 紧凑 分区 压缩 分类 | ||
1.一种用于压缩由测序仪产生的基因组序列数据的方法,所述基因组序列数据包括核苷酸序列的读段,其特征在于,
所述方法包括下列步骤:
将所述读段与一个或多个参考序列进行比对,从而创建比对读段,
根据与所述一个或多个参考序列的匹配准确度来对所述比对读段进行分类,从而创建比对读段的类别;
将被分类和比对的读段编码为多个语法元素层,
其中将分类的比对读段编码为多个语法元素层包括根据所述比对读段的类别选择所述语法元素。
2.根据权利要求1所述的方法,其特征在于,所述语法元素层包括:沿所述参考序列的位置、在所述参考序列上的两个位置之间的距离以及指示序列读段是否是反向互补的信息。
3.根据权利要求2所述的方法,其特征在于,所述语法元素层还包括:变体相对于所述参考序列的位置、所述变体的类型、缺失相对于所述参考序列的位置、不存在于所述参考序列中但却存在于所述比对读段中的一个或多个符号的位置、以及在给定位置处的插入的类型。
4.根据权利要求1所述的方法,其特征在于,根据所述层所承载的所述数据或元数据的具体特征,来调整将分类的比对读段编码为多个语法元素层。
5.根据权利要求4所述的方法,其特征在于,根据所述层所承载的所述数据或元数据的统计特性来进一步地调整将所述分类的比对读段编码为多个语法元素层。
6.根据权利要求5所述的方法,其特征在于,将所述分类的比对读段编码为多个语法元素层使得具体源模型和具体熵编码器关联到每个描述符层。
7.根据权利要求5所述的方法,其特征在于,所述熵编码器是上下文自调整算术编码器。
8.根据权利要求1所述的方法,其特征在于,所述序列读段在一个或多个参考序列上完全匹配。
9.根据权利要求1所述的方法,其特征在于,所述序列读段仅包含错配,其中存在“N”符号而不存在相对于一个或多个参考序列的实际核苷酸或氨基酸符号。
10.根据权利要求1所述的方法,其特征在于,所述序列读段包含相对于一个或多个参考序列的符号取代形式的任何类型的错配。
11.根据权利要求1所述的方法,其特征在于,所述序列读段包含相对于一个或多个参考序列的错配和插入或缺失。
12.根据权利要求1所述的方法,其特征在于,所述序列读段包含相对于一个或多个参考序列的错配、插入或缺失以及软剪切符号。
13.根据权利要求1所述的方法,其特征在于,所述序列读段不能相对于所述一个或多个参考序列进行映射。
14.根据权利要求1所述的方法,其特征在于,所述序列读段还根据每个序列读段所包含的所述错配的数量被分类成不同的类别。
15.一种用于将压缩的基因组流解压缩的方法,其特征在于,所述方法包括下列步骤:
将所述压缩的基因组流解析为语法元素的基因组层,
将所述基因组层扩展为核苷酸序列的分类读段,
选择性地对关于一个或多个参考序列的核苷酸序列的所述分类读段进行解码,以产生核苷酸序列的未压缩读段。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于耶诺姆希斯股份公司,未经耶诺姆希斯股份公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201680090052.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:序列变异识别的验证方法和系统
- 下一篇:用于编码和解码数据结构的质量值的方法