[发明专利]一种基于高通量测序数据的溶源性噬菌体预测方法有效
申请号: | 201910506027.0 | 申请日: | 2019-06-12 |
公开(公告)号: | CN110211628B | 公开(公告)日: | 2022-06-07 |
发明(设计)人: | 彭绍亮;牛琦;童贻刚;张湘莉兰;李肯立;曲强;谢湘成 | 申请(专利权)人: | 湖南大学 |
主分类号: | G16B15/30 | 分类号: | G16B15/30;G16B20/30 |
代理公司: | 国防科技大学专利服务中心 43202 | 代理人: | 王文惠 |
地址: | 410012 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 通量 序数 溶源性 噬菌体 预测 方法 | ||
1.一种基于高通量测序数据的溶源性噬菌体预测方法,其特征在于,包括以下步骤:
第一步、开始对原始测序数据的质量值进行控制和过滤:为保证对基因组进行测序时的准确性,定义测序得到的每个碱基的质量值表示各个碱基的置信度的度量标准,表示此碱基测序错误的概率,质量值越高说明错误率越低,测序准确率就越高;如果测序质量值偏低,则会对拼接效果造成不良影响,因此必须对质量值进行过滤,去除质量值较差的序列;
第二步、准备对高质量数据进行测序并组装:为方便测序,会人为地添加一种短片段,称为接头,最后的测序结果可能会残存接头序列,从而影响拼接的结果,因此需要人为地建立接头数据库,把测序数据中的碱基序列逐个与接头数据库中的序列进行比较,删除相同序列,完成对接头序列的过滤,得到净化后的数据进行拼接组装;
第三步、粗略前噬菌体预测:构建噬菌体蛋白质数据库,利用该数据库注释宿主菌的DNA,将呈现成簇聚集特征的噬菌体基因区域作为前噬菌体区域,再进行搜索并注释在细菌基因组上的整合酶基因,将整合酶基因的上下游一个前噬菌体基因组的区域估计为疑似存在前噬菌体的区域,其长度为90000bp;
第四步、精确前噬菌体预测:寻找定义了前噬菌体基因组边界的两个成对出现的特有的短正向重复序列attL和attR,长度在14-50bp之间,且可以取端点值;在粗略前噬菌体范围上设置两个“滑动窗口”,两个窗口差分的距离为e,其中e代表重复序列的距离,并设置两轮迭代;第一轮迭代改变两个窗口差分的距离,然后第二轮迭代从各窗口前端进行逐个碱基对比,把相同的碱基串记录下来,就是短正向重复序列attL和attR,两个短正向重复序列之间的范围即是精确的前噬菌体范围;
第五步、前噬菌体的功能性验证:根据在细菌DNA制备过程中溶源性噬菌体会被诱导出来并发生自身环化的特性进行其功能性的验证;先在精确前噬菌体预测范围截取上游末端1000bp的序列,命名为A,以及下游末端1000bp的序列,命名为B,之所以选择1000bp的长度是因为测序时的片段读长一般为1000bp-2000bp之间,且可以取端点值;然后使用测序得到的长度为500或1000或500-1000bp之间的基因片段成对地与A、B区域进行比对,寻找能够跨过A、B两区域的基因片段,若找到配对基因片段,则说明该前噬菌体在整合到细菌基因组上的同时产生了自身激活环化,即被验证为功能性前噬菌体;
第六步、溶源性噬菌体完整序列提取:在溶源性噬菌体序列上先将首尾两端的两个重复序列一起切除,再从首尾两端切除掉50个碱基的序列,以保证完全去除整合位点处的重复序列,再从前噬菌体下游末端出发,取下游末端长度为20bp的碱基序列,在原始测序数据中循环遍历一遍,把所有可以匹配到这条序列的基因片段取出来并通过多序列比对算法进行合并,生成一条一致性的序列;获得的一致性序列的前段若和前噬菌体下游末端序列相同,则将前噬菌体下游片段的末端延长;反之则未能接上,然后从延长后的前噬菌体下游末端继续取一段序列进行延伸,直到序列补充完毕,从而得到溶源性噬菌体完整序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910506027.0/1.html,转载请声明来源钻瓜专利网。