[发明专利]一种基因组变异检测方法及检测装置有效
申请号: | 201611073982.2 | 申请日: | 2016-11-29 |
公开(公告)号: | CN108121897B | 公开(公告)日: | 2020-05-08 |
发明(设计)人: | 何俊;张旸;张洪波 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G16B20/20 | 分类号: | G16B20/20;G16B30/10;G16B40/00 |
代理公司: | 北京中博世达专利商标代理有限公司 11274 | 代理人: | 申健 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基因组 变异 检测 方法 装置 | ||
1.一种基因组变异检测方法,由检测装置执行,其特征在于,包括:
将基因组的多条测序序列分别和参考序列进行双序列比对,得到双序列比对结果;
根据所述双序列比对结果,确定所述基因组的潜在变异区域;
对每个潜在变异区域,在所有测序序列中抽取出处于所述潜在变异区域内的所有测序序列片段,根据所述所有测序序列片段创建迭代DeBruijn图,根据所述迭代DeBruijn图得到N个单倍体;其中,所述N为大于等于1的整数;
对于所述潜在变异区域内的任一测序序列片段,将所述测序序列片段与所述N个单倍体进行SW比对,将所述测序序列片段的最佳单倍体与参考序列片段进行SW比对,得到一组与该测序序列片段对应的SW比对结果;
根据预设变换规则,对每个测序序列片段的SW比对结果进行转换,得到每个测序序列片段与所述参考序列片段的校正对齐结果;所述预设变换规则用于将所述每个测序序列片段与所述参考序列片段对齐;
根据每个测序序列片段与所述参考序列片段的校正对齐结果,确定所述基因组的变异类型。
2.根据权利要求1所述的方法,其特征在于,所述根据所述双序列比对结果,确定所述基因组的潜在变异区域,包括:
根据所述基因组的编码顺序,将所述基因组划分为多个编码区间;
根据所述双序列比对结果,确定所有测序序列的变异类型;
统计每个编码区间内不同变异类型的测序序列的概率分布值;
根据所述编码区间内不同变异类型的测序序列的概率分布值,计算所述编码区间的信息熵;
判断每个编码区间的信息熵是否大于第一阈值,若存在第一编码区间,所述第一编码区间的信息熵大于第一阈值,则确定所述第一编码区间为潜在变异区域。
3.根据权利要求1所述的方法,其特征在于,所述根据所述双序列比对结果,确定所述基因组的潜在变异区域,包括:
根据所述基因组的编码顺序,将所述基因组划分为多个编码区间;
统计每个编码区间内发生变异的测序序列的数量;
判断每个编码区间内发生变异的测序序列的数量是否大于第二阈值;
若存在第一编码区间,所述第一编码区间内发生变异的测序序列的数量大于第二阈值,则确定所述第一编码区间为潜在变异区域。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述根据所述所有测序序列片段创建迭代DeBruijn图,包括:
a)初始化kmer的值k;
b)从所述所有测序序列当中过滤掉支持数低于设定阈值的kmer,并以所述kmer作为节点,过滤后的测序序列上的相邻kmer作为边,创建最初始的DeBruijn图;
c)遍历当前DeBruijn图产生多个contig,过滤出长度大于测序仪读长的contig作为新扩充的测序序列,并删除掉所述所有测序序列中被所述新扩充的测序序列完全包含的测序序列,同时,将k值加1;
d)以所述所有测序序列中剩下的测序序列和所述新扩充的测序序列按照新的k值,以所述kmer作为节点,所述所有测序序列上的相邻kmer作为边创建新的DeBruijn图;其中,所述k值为kmer长度,所述当前DeBruijn图根据所述k值创建;
重复上述c)~d)过程,直至所述k值为预设的最大kmax值,将最大kmax值对应的当前DeBruijn图作为最终需要的迭代DeBruijn图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611073982.2/1.html,转载请声明来源钻瓜专利网。