[发明专利]基于数值特征表达的基因组二四代融合组装方法及系统在审
申请号: | 202211336402.X | 申请日: | 2022-10-28 |
公开(公告)号: | CN115527612A | 公开(公告)日: | 2022-12-27 |
发明(设计)人: | 李国良;张也;陆嘉华;彭德华;陈建邦;江熠;陈星霖;唐善雯;张芷硕;吴蕾 | 申请(专利权)人: | 天津大学四川创新研究院 |
主分类号: | G16B30/20 | 分类号: | G16B30/20;G16B40/00;G16B20/20;G06K9/62 |
代理公司: | 成都金英专利代理事务所(普通合伙) 51218 | 代理人: | 郭肖凌 |
地址: | 610000 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 数值 特征 表达 基因组 二四代 融合 组装 方法 系统 | ||
本发明公开了基于数值特征表达的基因组二四代融合组装方法及系统,该方法包括如下步骤:S1:读入测序文件,进行基因解析获得测序序列reads的自定义编号和碱基序列;S2:截取测序序列reads的碱基序列,获得质心特征值,并生成二代测序数据特征值矩阵和四代测序数据特征值矩阵;S3:按照设定误差阈值A搜索四代测序数据之间相似特征值对应的序列,将四代测序数据组装为基因序列骨架;S4:按照设定误差阈值B搜索二代测序数据和四代测序数据相似特征值对应的序列,将二代测序数据回帖至基因序列骨架;S5:输出最终组装结果和SNP信息表。本发明可提高涉及二四代组装和有参映射组装分析的生物信息学分析流程的速度。
技术领域
本发明涉及机器学习技术领域,尤其涉及基于数值特征表达的基因组二四代融合组装方法及系统。
背景技术
第二代测序技术大大提高了基因测序的通量,但其获得的单条序列长度很短,往往只在50~300bp,相对于整个基因组而言是极小的,并且因为测序的覆盖范围更深,导致基因组项目中需要处理的序列数量迅速增加。二代测序获得的原始碱基数据准确度大于99.94%,在15X覆盖率时的准确度就可以达到99.999%。
自2014年牛津纳米孔科技有限公司(Oxford Nanopore Technologies, ONT)发布第一台纳米孔测序仪MinION以来,纳米孔测序技术及其应用研究飞速增长。纳米孔测序技术(又称第四代测序技术)是最近几年兴起的新一代测序技术,目前测序长度可以达到150kb。随着ONT纳米孔测序技术不断升级和改进,目前最新的ONT测序芯片能够达到接近99.999%的准确率。
第四代测序技术在开发组装算法时不适合利用NGS数据组装的De Bruijn Graph进行组装,主要存在两方面的原因。首先,De Bruijn Graph等方法依赖测序reads拆分的K-mer测序准确,而高错误率的MinION测序reads不能保证这一点;其次,De Bruijn Graph的结构不适用长reads,其会导致截取后产生的K-mer片段急剧增加从而加大内存开销。因此MinION测序数据的长reads更适合Sanger测序时期基于Overlap-Layout-Consensus(OLC,重叠-分布-共识)的方法获得一致性序列,再通过一致性序列进行数据矫正,矫正后的准确率可达99.9%到99.99%;并且同时使用二代数据进行纠错,准确率可以更高。但是一步组装,两步纠错的从头组装算法需要大量重复测序,因此增加了极高的测序成本。
基因组组装是进行生物信息学分析的第一步,许多物种的基因组未知,得到高质量的参考基因组,对开展该物种进一步的分析具有重大意义。高准确率的长读长,相比二代测序能够更好地跨越重复区域,组装出更高质量的基因组,但已有的组装方法均需要进行两轮纠错消耗算力成本和时间成本。
发明内容
本发明的目的是提供一种基于数值特征表达的基因组二四代融合组装方法及系统,以解决现有基因组组装方法成本较高的技术问题。
本发明的目的是采用以下技术方案实现的:基于数值特征表达的基因组二四代融合组装方法,包括如下步骤:
S1:读入测序文件,进行基因解析获得测序序列reads的自定义编号和碱基序列;
S2:截取测序序列reads的碱基序列,获得质心特征值,并生成二代测序数据特征值矩阵和四代测序数据特征值矩阵;
S3:按照设定误差阈值A搜索四代测序数据之间相似特征值对应的序列,将四代测序数据组装为基因序列骨架;
S4:按照设定误差阈值B搜索二代测序数据和四代测序数据相似特征值对应的序列,将二代测序数据回帖至基因序列骨架;
S5:输出最终组装结果和SNP信息表。
进一步的,步骤S1具体为:从磁盘读入测序文件,所述测序文件包括fasta和/或fastq文件,,并通过识别文件标识行对测序文件进行基因解析,获得测序序列reads的自定义编号和碱基序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学四川创新研究院,未经天津大学四川创新研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211336402.X/2.html,转载请声明来源钻瓜专利网。