[发明专利]基于已知序列确定目标物种中对应序列的方法和系统有效
申请号: | 201811291781.9 | 申请日: | 2018-10-31 |
公开(公告)号: | CN111128303B | 公开(公告)日: | 2023-09-15 |
发明(设计)人: | 方东明;陈晓丽;吴晨雨;刘欢;刘心 | 申请(专利权)人: | 深圳华大生命科学研究院 |
主分类号: | G16B30/00 | 分类号: | G16B30/00;G16B20/00 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 赵天月 |
地址: | 518083 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 已知 序列 确定 目标 物种 对应 方法 系统 | ||
1.一种基于已知序列确定目标物种中对应序列的方法,其特征在于,包括:
(1)基于所述已知序列,确定所述已知序列的全部Kmer序列,以便获得种子序列Kmer序列集合;
(2)获取来自于所述目标物种的测序读段,并基于所述测序读段的至少一部分,确定所述测序读段的Kmer序列,以便获得测序读段Kmer序列集合;
(3)确定同时存在于所述测序读段Kmer序列集合和所述种子序列Kmer序列集合的Kmer序列作为延伸起始序列;
(4)基于重叠原则,利用所述测序读段Kmer序列集合,对所述延伸起始序列进行延伸处理,以便获得所述已知序列在所述目标物种中的对应序列;
(5)确定步骤(4)中进行所述延伸处理所采用的测序读段Kmer序列所对应的候选测序读段;
(6)基于所述候选测序读段对所述对应序列进行修正处理;
其中,
在步骤(2)中,所述测序读段是来自BGI SEQ 500双向测序系统,且仅针对双向测序读段中的正向测序读段构建所述测序读段Kmer序列集合;
在步骤(2)中,在基于所述测序读段的至少一部分,确定所述测序读段的Kmer序列之前,预先对所述测序读段的至少一部分进行优化处理;
所述优化处理包括删除所述测序读段起端和末端至少之一的1~10个碱基;
在步骤(4)中,当所述延伸处理的延伸产物长度达到预定长度的1.5~2.5倍时,停止所述延伸处理;
在步骤(3)中,确定多个延伸起始序列,在步骤(4)中分别针对所述多个延伸起始序列分别进行所述延伸处理,以便获得多个延伸产物,并通过下列步骤从所述多个延伸产物中选择最终序列作为所述已知序列在所述目标物种中的对应序列:分别确定所述多个延伸产物的每一个中所包含的种子序列Kmer序列数目;选择包含所述种子序列Kmer序列数目最高的所述延伸产物作为所述对应序列;
在步骤(6)中,所述修正处理包括:基于所述候选测序读段与所述对应序列的比对,针对所述对应序列的至少一个位点,确定所述至少一个位点的优势碱基,并利用所述优势碱基对所述对应序列进行修正;
在步骤(6)中,所述修正处理包括:确定双向测序读段中成对测序读段在所述对应序列上的间距,如果所述间距与预定的插入片段长度差异超过10%,则判定所述对应序列为错误序列;对于不存在所述优势碱基且测序深度差异低于2倍,则将所述位点标记为SNP;对于不存在所述优势碱基且测序深度差异不低于2倍,则将所述位点标记为CNV。
2.根据权利要求1所述的方法,其特征在于,所述已知序列来自于所述目标物种的亲缘物种。
3.根据权利要求1所述的方法,其特征在于,步骤(1)和步骤(2)中,分别采用相同的序列长度K值和间距D值,确定所述已知序列的全部Kmer序列和所述测序读段的Kmer序列,所述K值为27-39的整数,K值为31,所述D值为1。
4.一种基于已知序列确定目标物种中对应序列的系统,其特征在于,包括:
种子序列Kmer序列集合获得装置,所述种子序列Kmer序列集合获得装置用于基于所述已知序列,确定所述已知序列的全部Kmer序列,以便获得种子序列Kmer序列集合;
测序读段Kmer序列集合获得装置,所述测序读段Kmer序列集合获得装置用于获取来自于所述目标物种的测序读段,并基于所述测序读段的至少一部分,确定所述测序读段的Kmer序列,以便获得测序读段Kmer序列集合;
确定延伸起始序列装置,所述确定延伸起始序列装置与所述种子序列Kmer序列集合获得装置和所述测序读段Kmer序列集合获得装置相连,用于确定同时存在于所述测序读段Kmer序列集合和所述种子序列Kmer序列集合的Kmer序列作为延伸起始序列;
目标物种中的对应序列获得装置,所述目标物种中的对应序列获得装置与所述确定延伸起始序列装置相连,用于基于重叠原则,利用所述测序读段Kmer序列集合,对所述延伸起始序列进行延伸处理,以便获得所述已知序列在所述目标物种中的对应序列;
所述已知序列来自于所述目标物种的亲缘物种;
分别采用相同的序列长度K值和间距D值,确定所述已知序列的全部Kmer序列和所述测序读段的Kmer序列,所述K值为27-39的整数,K值为31,所述D值为1;
所述测序读段是来自双向测序系统;
所述测序读段是来自BGI SEQ 500的双向测序数据;
所述测序读段Kmer序列集合获得装置仅针对双向测序读段中的正向测序读段构建所述测序读段Kmer序列集合;
所述测序读段Kmer序列集合获得装置中包括:
优化处理单元,所述优化处理单元用于基于所述测序读段的至少一部分,确定所述测序读段的Kmer序列之前,预先对所述测序读段的至少一部分进行优化处理;
所述优化处理单元适于执行以下操作:
删除所述测序读段起端和末端至少之一的1~10个碱基;
所述目标物种中的对应序列获得装置适于执行以下操作:当所述延伸处理的延伸产物长度达到预定长度的1.5~2.5倍时,停止所述延伸处理;
所述确定延伸起始序列装置还适于确定多个延伸起始序列,所述目标物种中的对应序列获得装置还适于执行以下操作:
分别针对所述多个延伸起始序列分别进行所述延伸处理,以便获得多个延伸产物,并通过下列步骤从所述多个延伸产物中选择最终序列作为所述已知序列在所述目标物种中的对应序列:
分别确定所述多个延伸产物的每一个中所包含的种子序列Kmer序列数目;
选择包含所述种子序列Kmer序列数目最高的所述延伸产物作为所述对应序列;
所述系统进一步包括:
候选测序读段确定装置,所述候选测序读段确定装置用于确定进行所述延伸处理所采用的测序读段Kmer序列所对应的候选测序读段;
修正装置,所述修正装置用于基于所述候选测序读段对所述对应序列进行修正处理;
所述修正处理包括以下操作:
基于所述候选测序读段与所述对应序列的比对,针对所述对应序列的至少一个位点,确定所述至少一个位点的优势碱基,并利用所述优势碱基对所述对应序列进行修正;
所述修正处理包括以下操作:
确定双向测序读段中成对测序读段在所述对应序列上的间距,如果所述间距与预定的插入片段长度差异超过10%,则判定所述对应序列为错误序列;
对于不存在所述优势碱基且测序深度差异低于2倍,则将所述位点标记为SNP;
对于不存在所述优势碱基且测序深度差异不低于2倍,则将所述位点标记为CNV。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳华大生命科学研究院,未经深圳华大生命科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811291781.9/1.html,转载请声明来源钻瓜专利网。