[发明专利]一种基于长读序测序判断重叠组装正误的方法有效
申请号: | 201710720048.3 | 申请日: | 2017-08-21 |
公开(公告)号: | CN107590362B | 公开(公告)日: | 2019-12-06 |
发明(设计)人: | 邬三毛;肖世俊;郭文浒;陈楠生 | 申请(专利权)人: | 武汉菲沙基因信息有限公司 |
主分类号: | G16B20/00 | 分类号: | G16B20/00;G16B40/00 |
代理公司: | 11212 北京轻创知识产权代理有限公司 | 代理人: | 杨立;李蕾<国际申请>=<国际公布>=< |
地址: | 430075 湖北省武汉市*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 长读序测序 判断 重叠 组装 正误 方法 | ||
1.一种基于长读序测序数据判断重叠组装正误的方法,其特征在于,通过将长读序测序数据比对到待处理的重叠组装结果来进行,所述长读序测序中的平均读长不小于2kb,且包括以下步骤:
S1:获得长读序测序数据;
S2:将所述长读序测序数据与待处理的重叠组装结果进行比对,得到比对结果;
S3:根据所述比对结果的信息来对所述重叠组装结果进行正误判断;
其中,所述S2包括以下步骤:
S21:将所述长读序测序数据比对到所述重叠组装结果;
S22:对所述长读序测序数据中同一条读序的比对进行聚类和处理,选取总比对长度最长的一类作为该读序的最终比对,合并离散比对;
S23:依次扫描所述重叠组装结果的每条重叠组装序列的比对,记录异常中断窗口、所述异常中断窗口的异常断点数以及所述异常中断窗口被所述长读序测序数据中的读序跨过次数;
所述比对结果包括所述异常中断窗口中的异常断点数以及被所述长读序测序数据中的读序跨过次数。
2.根据权利要求1所述的方法,其特征在于,S22中聚类的前后还分别进行了一次过滤。
3.根据权利要求2所述的方法,其特征在于,S22中,聚类前的过滤剔除比对长度小于20-100bp的比对,剔除比对长度占自身比对长度的比例小于0.01-0.1的比对,并且剔除比对一致性低于85-95%的比对;聚类后的过滤剔除比对长度占自身比对长度的比例小于0.3-0.6的比对。
4.根据权利要求1所述的方法,其特征在于,S23中,所述异常中断窗口为高异常中断窗口,所述高异常中断窗口为异常断点数大于等于(测序深度*6)/100的异常中断窗口。
5.根据权利要求4所述的方法,其特征在于,S23中,异常中断窗口处的读序跨过次数通过以下方法来计算:以所述异常中断窗口中点左侧200bp和右侧200bp构成的区域为读序跨过次数判断窗口,计算跨过所述读序跨过次数判断窗口的读序数。
6.根据权利要求1所述的方法,其特征在于,S3具体包括以下步骤:
S31:使用所述异常断点数和读序跨过次数作为特征向量构建SVM模型;
S32:用已知正误的组装结果训练所述SVM模型,得到分类器;
S33:使用所述分类器判断所述重叠组装结果中每个异常中断窗口的组装正误。
7.根据权利要求6所述的方法,其特征在于,S32中所述已知正误的组装结果通过由组装软件对已知基因组序列的测序结果进行组装并将组装结果比对到参考基因组后,对正确组装位置和错误组装位置进行标记得到,或者,所述已知正误的组装结果中的错误组装结果通过人工产生错误组装来得到。
8.根据权利要求1-7中任一项所述的方法,其特征在于,所述长读序测序为三代测序。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉菲沙基因信息有限公司,未经武汉菲沙基因信息有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710720048.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种机床工作台可旋转的研磨机
- 下一篇:一种磨针机