[发明专利]基于数值特征表达的基因组二四代融合组装方法及系统在审
申请号: | 202211336402.X | 申请日: | 2022-10-28 |
公开(公告)号: | CN115527612A | 公开(公告)日: | 2022-12-27 |
发明(设计)人: | 李国良;张也;陆嘉华;彭德华;陈建邦;江熠;陈星霖;唐善雯;张芷硕;吴蕾 | 申请(专利权)人: | 天津大学四川创新研究院 |
主分类号: | G16B30/20 | 分类号: | G16B30/20;G16B40/00;G16B20/20;G06K9/62 |
代理公司: | 成都金英专利代理事务所(普通合伙) 51218 | 代理人: | 郭肖凌 |
地址: | 610000 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 数值 特征 表达 基因组 二四代 融合 组装 方法 系统 | ||
1.基于数值特征表达的基因组二四代融合组装方法,其特征在于,包括如下步骤:
S1:读入测序文件,进行基因解析获得测序序列reads的自定义编号和碱基序列;
S2:截取测序序列reads的碱基序列,获得质心特征值,并生成二代测序数据特征值矩阵和四代测序数据特征值矩阵;
S3:按照设定误差阈值A搜索四代测序数据之间相似特征值对应的序列,将四代测序数据组装为基因序列骨架;
S4:按照设定误差阈值B搜索二代测序数据和四代测序数据相似特征值对应的序列,将二代测序数据回帖至基因序列骨架;
S5:输出最终组装结果和SNP信息表。
2.如权利要求1所述的基于数值特征表达的基因组二四代融合组装方法,其特征在于,步骤S1具体为:从磁盘读入测序文件,所述测序文件包括fasta和/或fastq文件,并通过识别文件标识行对测序文件进行基因解析,获得测序序列reads的自定义编号和碱基序列。
3.如权利要求1所述的基于数值特征表达的基因组二四代融合组装方法,其特征在于,所述测序序列reads包括二代测序数据和四代测序数据。
4.如权利要求1所述的基于数值特征表达的基因组二四代融合组装方法,其特征在于,步骤S2包括如下子步骤:
S21:按照预设长度滑动截取测序序列reads的碱基序列,并将其映射为坐标系散点,采用Kmeans聚类获得质心特征值;
S22:按照预设间隔向前滑动截取,依次获得所截取测序序列reads碱基序列的质心特征值,直到该条测序序列reads的最后一位停止;
S23:将计算得到的一系列质心特征值作为该条测序序列reads的特征值矩阵,所述特征值矩阵包括二代测序数据特征值矩阵和四代测序数据特征值矩阵。
5.如权利要求1所述的基于数值特征表达的基因组二四代融合组装方法,其特征在于,步骤S3包括如下子步骤:
S31:将四代测序数据特征值矩阵进行数值快排;
S32:按照设定误差阈值A搜索四代测序数据之间相似特征值对应的序列;
S33:将筛选出来的特征值相似的四代测序数据组装为基因序列骨架。
6.如权利要求5所述的基于数值特征表达的基因组二四代融合组装方法,其特征在于,步骤S3还包括如下子步骤:
S34:生成读长ID,以及读长ID在基因序列骨架中位置的对应索引表。
7.如权利要求1所述的基于数值特征表达的基因组二四代融合组装方法,其特征在于,步骤S4包括如下子步骤:
S41:将二代测序数据特征值矩阵进行数值快排;
S42:按照设定误差阈值B搜索二代测序数据和四代测序数据相似特征值对应的序列,得到与二代读长特征值相似的四代读长ID和该四代读长ID在基因序列骨架中的定位;
S43:将二代测序数据按照位置比对定位到基因序列骨架上进行对比,根据比对结果,将二代测序数据回帖至基因序列骨架。
8.如权利要求7所述的基于数值特征表达的基因组二四代融合组装方法,其特征在于,步骤S43具体为:若重合区域超过阈值C,则判定该二代测序数据已经回帖定位至基因序列骨架;若重合区域低于阈值C,则判定该二代测序数据不能回帖至基因序列骨架,此时,需要缩小阈值C,进行下一轮搜索回帖。
9.基于数值特征表达的基因组二四代融合组装系统,用以实现权利要求1~8任意一项所述的基于数值特征表达的基因组二四代融合组装方法,其特征在于,包括读取模块、截取模块、四代测序数据搜索模块、二代测序数据搜索模块和输出模块,所述读取模块用以读入测序文件,进行基因解析获得测序序列reads的自定义编号和碱基序列;所述截取模块用以截取测序序列reads的碱基序列,获得质心特征值,并生成二代测序数据特征值矩阵和四代测序数据特征值矩阵;所述四代测序数据搜索模块用以按照设定误差阈值A搜索四代测序数据之间相似特征值对应的序列,将四代测序数据组装为基因序列骨架;所述二代测序数据搜索模块用以按照设定误差阈值B搜索二代测序数据和四代测序数据相似特征值对应的序列,将二代测序数据回帖至基因序列骨架;所述输出模块用以输出最终组装结果和SNP信息表。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学四川创新研究院,未经天津大学四川创新研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211336402.X/1.html,转载请声明来源钻瓜专利网。