[发明专利]序列变异校验方法和装置、生产变异序列的方法和装置及电子设备有效
申请号: | 201910202271.8 | 申请日: | 2019-03-18 |
公开(公告)号: | CN109935275B | 公开(公告)日: | 2021-09-07 |
发明(设计)人: | 周淼;荆瑞琳;杜洋;李大为;玄兆伶;王海良;肖飞 | 申请(专利权)人: | 北京安诺优达医学检验实验室有限公司;安诺优达基因科技(北京)有限公司 |
主分类号: | G16B20/20 | 分类号: | G16B20/20;G16B5/00;G16B50/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100176 北京市大兴区北京经济技术*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 序列 变异 校验 方法 装置 生产 电子设备 | ||
公开了一种序列变异校验方法、生成变异序列的方法、序列变异校正装置、生成变异序列的装置和电子设备。该序列变异校验方法包括:获取原始序列;获取变异信息;获取已变异的待校验序列;以及,基于所述原始序列和所述变异信息校验所述待校验序列以确定所述待校验序列的变异是否正确。这样,增加了变异模拟过程的可靠性。
技术领域
本申请涉及序列变异数据处理领域,且更为具体地,涉及一种序列变异校验方法、生成变异序列的方法、序列变异校正装置、生成变异序列的装置和电子设备。
背景技术
当前研究基因组序列之间的差异,主要基于fasta和fastq两种格式数据。对于fasta来说,有例如blast等工具,将序列比对之后进行可视化展示,便于查看两段序列之间的差异;对于fastq来说,有基于二代测序的多种变异检测工具,而此类工具的结果大多以vcf格式进行保存。
基于二代测序检测变异应用广泛,但其检测结果难以确定一个标准,所以fastq数据的模拟是很有必要的。目前已有多种变异模拟工具,其中一部分工具实现模拟fasta序列的功能,另一部分工具基于在模拟生成fasta之后,会继续基于此fasta模拟fastq数据。
因此,期望提供改进的对于序列变异检查的处理方案。
发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种序列变异校验方法、生成变异序列的方法、序列变异校正装置、生成变异序列的装置和电子设备,其能够基于原始序列和变异信息对于已变异的待校验序列进行校验或者直接生成变异序列,增加了变异模拟过程的可靠性。
根据本申请的一个方面,提供了一种序列变异校验方法,包括:获取原始序列;获取变异信息;获取已变异的待校验序列;以及,基于所述原始序列和所述变异信息校验所述待校验序列以确定所述待校验序列的变异是否正确。在上述序列变异校验方法中,所述确定所述待校验序列的变异是否正确包括:顺序读取所述原始序列;基于所述变异信息确定所述原始序列上的每一变异区域;基于所述每一变异区域确定所述原始序列中交替排列的对应于非变异区域的非变异字符串和对应于变异区域的变异字符串;按照所述原始序列的读取顺序,对于所述非变异字符串和所述变异字符串,交替地基于所述原始序列和所述变异信息校验所述待校验序列,包括:对于所述非变异字符串,对所述原始序列与所述待校验序列进行第一比对,以及,对于所述变异字符串,基于所述变异区域的所述变异信息和所述原始序列生成模拟变异段,并对所述模拟变异段和所述待校验序列进行第二比对。
在上述序列变异校验方法中,所述第一比对和所述第二比对均是以字符串为单位进行的。
在上述序列变异校验方法中,进一步包括:基于所述变异信息,在所述原始序列上的对应位点对插入变异进行空位占位;以及,基于所述变异信息,在所述待校验序列上的对应位点对删除变异进行空位占位。
在上述序列变异校验方法中,所述第二比对进一步包括:响应于确定变异错误,记录错误序列的信息。
在上述序列变异校验方法中,所述第二比对进一步包括:确定是否存在变异相邻和/或变异重叠;以及,响应于存在变异相邻和/或变异重叠,记录所述变异相邻和/或变异重叠的信息。
在上述序列变异校验方法中,所述第一比对进一步包括:一一对应地显示所述原始序列和所述待校验序列的相应区域以及一致性指示符。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京安诺优达医学检验实验室有限公司;安诺优达基因科技(北京)有限公司,未经北京安诺优达医学检验实验室有限公司;安诺优达基因科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910202271.8/2.html,转载请声明来源钻瓜专利网。