[发明专利]用于从多个噪声序列生成共有序列的基于深度学习的技术在审
申请号: | 202180062438.0 | 申请日: | 2021-09-09 |
公开(公告)号: | CN116325001A | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | M·莫希尤丁;S·M·萨赫拉伊恩 | 申请(专利权)人: | 弗哈夫曼拉罗切有限公司 |
主分类号: | G16B30/00 | 分类号: | G16B30/00 |
代理公司: | 华进联合专利商标代理有限公司 44224 | 代理人: | 陈习;郑元博 |
地址: | 瑞士*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 噪声 序列 生成 共有 基于 深度 学习 技术 | ||
一些实施例涉及用于生成特定分子的共有序列的方法、系统、用途或软件。可以访问特定分子的序列集,每个序列已经独立于该序列集中的其他序列而生成,并且每个序列包括有序碱基集。可以使用序列集来执行对齐过程以针对序列集的有序碱基集中的每个碱基生成关联的对齐结果。碱基可以具有参考位置。对于参考位置集中的每个参考位置,可以为参考位置生成特征向量,该特征向量表示来自有序碱基集的与参考位置对齐的每个碱基。可以使用机器学习模型来处理参考位置集的特征向量,以生成特定分子的共有序列。
相关申请的交叉引用
本申请要求于2020年9月11日提交的美国临时专利申请63/077,357的权益和优先权,其全部内容出于所有目的通过引用并入本文。
背景
生物样本可用于对识别有序核酸集的序列进行识别。最近,单分子测序在技术上迅速发展并在应用上不断扩展。这些技术可以对单个分子进行测序,并且可以在没有PCR扩增的情况下实时进行。这些技术在促进以下方面具有令人难以置信的前景:建立基因与疾病关联的综合文库、识别和表征新疾病、表征罕见疾病以及识别疗法。
然而,许多现有的测序技术(例如,第三代或下一代技术)仍然容易出错,错误率可以达到40%。如果可以降低错误率,那么测序的实用性将大大提高。
发明内容
在一些实施例中,提供了一种计算机实施的方法来生成特定分子的共有序列。访问特定分子的序列集,该序列集中的每个序列已经独立于该序列集中的其他序列而生成,并且该序列集中的每个序列包括有序碱基集。使用该序列集来执行对齐过程以生成对齐结果,该对齐结果针对序列集的有序碱基集中的每个碱基而将该碱基与来自参考位置集中的参考位置相关联。对于参考位置集中的每个参考位置,为参考位置生成特征向量,该特征向量表示来自有序碱基集的与参考位置对齐的每个碱基。使用机器学习模型来处理参考位置集的特征向量,以生成特定分子的共有序列。
执行对齐处理可以包括执行多序列对齐。对于参考位置集中的每个参考位置,特征向量可以针对序列集中的每个序列包括关于有序碱基集中的哪个碱基(如果有的话)与参考位置对齐的指示。对于参考位置集中的至少一个参考位置的每个参考位置,特征向量可以包括序列集中的至少一个序列中的每个序列不包括与参考位置对齐的碱基的指示。针对序列集中的至少一个序列的每个序列,该方法还可以包括:确定该序列包括一种或多种均聚物,该一种或多种均聚物中的每一种均聚物均包括序列中相同碱基的多个连续表示;和生成序列的折叠表示,在折叠表示中一种或多种均聚物中的每一种均聚物被折叠成单个碱基,其中对齐过程使用序列的折叠表示来执行。针对一种或多种均聚物中的每一种,折叠表示可以包括均聚物中碱基数量的指示。机器学习模型可以包括循环神经网络。机器学习模型可以包括一个或多个长短期记忆(LSTM)单元。该方法还可以包括:针对序列集中的至少一些序列的每个序列,访问有序碱基集中的一个或多个碱基中的每个碱基的质量度量,其中生成的特征向量中的至少一个特征向量包括一个或多个质量值,一个或多个质量值中的每个质量值包括质量度量或基于质量度量。
在一些实施例中,提供了一种系统,其包括一个或多个数据处理器和包含指令的非暂时性计算机可读存储介质,当在一个或多个数据处理器上执行时,该指令使一个或多个数据处理器执行本文公开的一种或多种方法的部分或全部。
在一些实施例中,提供了一种计算机程序产品,其有形地体现在非暂时性机器可读存储介质中并且包括指令,该指令配置为使一个或多个数据处理器执行本文公开的一种或多种方法的部分或全部。
本公开的一些实施例包括一种系统,该系统包括一个或多个数据处理器。在一些实施例中,该系统包括包含指令的非暂时性计算机可读存储介质,当在一个或多个数据处理器上执行时,该指令使一个或多个数据处理器执行一种或多种方法的部分或全部和/或本文公开的一个或多个过程的部分或全部。本公开的一些实施例包括一种计算机程序产品,其有形地体现在非暂时性机器可读存储介质中,包括指令,该指令配置为使一个或多个数据处理器执行一种或多种方法的部分或全部和/或本文公开的一个或多个过程的部分或全部。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于弗哈夫曼拉罗切有限公司,未经弗哈夫曼拉罗切有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202180062438.0/2.html,转载请声明来源钻瓜专利网。