[发明专利]组装基因组序列的方法和系统有效
申请号: | 201410272988.7 | 申请日: | 2014-06-18 |
公开(公告)号: | CN104017883A | 公开(公告)日: | 2014-09-03 |
发明(设计)人: | 詹东亮 | 申请(专利权)人: | 深圳华大基因科技服务有限公司 |
主分类号: | C12Q1/68 | 分类号: | C12Q1/68;C12M1/00 |
代理公司: | 广州三环专利代理有限公司 44202 | 代理人: | 郝传鑫;付静 |
地址: | 518083 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 组装 基因组 序列 方法 系统 | ||
1.一种组装基因组序列的方法,其特征在于,包括:
利用第二代测序技术对样品进行测序,获得所述样品的高精度短片段序列;
对获得的所述高精度短片段序列进行拼接,获得第一拼接序列;
利用单分子测序技术对与上述同样来源的样品进行测序,获得所述同样来源样品的长片段序列;
对获得的所述长片段序列进行拼接,获得第二拼接序列;
将所述第一拼接序列定位到所述第二拼接序列上;
利用所述第一拼接序列中的所述高精度短片段序列对所述第二拼接序列中的所述长片段序列进行局部纠错,获得第三拼接序列。
2.一种如权利要求1所述的组装基因组序列的方法,其特征在于:所述方法还包括使用LSC软件和所述高精度短片段序列对所述第三拼接序列中未被所述第一拼接序列覆盖到的区域进行纠错。
3.一种如权利要求1所述的组装基因组序列的方法,其特征在于:所述的第二代测序技术采用的是HiSeq测序仪,所述的单分子测序技术采用的是PacBio RSII测序仪。
4.一种如权利要求1所述的组装基因组序列的方法,其特征在于:使用SOAPdenovo软件对获得的所述高精度短片段序列进行拼接。
5.一种如权利要求4所述的组装基因组序列的方法,其特征在于:所述的使用SOAPdenovo软件对获得的所述高精度短片段序列进行拼接包括以下步骤:
A.将原始reads读入到内存中,用de Bruijin图数据结构表示reads之间的overlap;
B.简化de Bruijin图,所述简化包括剪去短末端,移除低覆盖度的边,解决reads路径中的微小重复和/或合并茎环;
C.基于所述简化的de Bruijin图,在其重复边界上打断连接,输出高精度的序列作为contigs;
D.重新用所述reads和所述contigs进行比对,使用配对双末端resds数据把单一的所述contigs连接成scaffolds;
E.使用配对双末端resds填补所述scaffolds内部的gap,即可获得所述的第一拼接序列。
6.一种如权利要求1所述的组装基因组序列的方法,其特征在于,所述的对获得的所述长片段序列进行拼接包括以下步骤:
A.先利用BLASR软件找出可能的连接区域,再对所述可能的连接区域进行详细比对;
B.利用步骤A所获得的详细比对信息进行去冗余和拼接,获得所述第二拼接序列。
7.一种组装基因组序列的系统,其特征在于,包括:
接收模块Ⅰ,用于接收利用第二代测序技术获得的样品的高精度短片段序列;
拼接模块Ⅰ,与所述接收模块Ⅰ相连,用于对所获得的样品的高精度短片段序列进行拼接,获得第一拼接序列;
接收模块Ⅱ,用于接收利用单分子测序技术获得的样品的长片段序列;
拼接模块Ⅱ,与所述接收模块Ⅱ相连,用于对所获得的样品的长片段序列进行拼接,获得第二拼接序列;
定位模块,与所述接收模块Ⅰ和所述接收模块Ⅱ相连,用于将所述第一拼接序列定位到所述第二拼接序列上;
纠错模块Ⅰ,与所述定位模块相连,用于利用所述第一拼接序列中的高精度短片段序列对所述第二拼接序列中的长片段序列进行局部纠错,获得第三拼接序列。
8.一种如权利要求7所述的组装基因组序列的系统,其特征在于:所述系统还包括纠错模块Ⅱ,与所述纠错模块Ⅰ相连,用于使用LSC软件和高精度短片段序列对所述第三拼接序列中未被所述第一拼接序列覆盖到的区域进行纠错。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳华大基因科技服务有限公司,未经深圳华大基因科技服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410272988.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:针对含重金属的生活污水处理设备
- 下一篇:生物质燃料锅炉进料机构