[发明专利]一种环境微生物检测方法和系统有效
申请号: | 200910258132.3 | 申请日: | 2009-12-14 |
公开(公告)号: | CN101748213A | 公开(公告)日: | 2010-06-23 |
发明(设计)人: | 覃俊杰;李瑞强;张秀清;王俊;杨焕明;汪建 | 申请(专利权)人: | 深圳华大基因研究院;深圳华大基因科技有限公司 |
主分类号: | C12Q1/68 | 分类号: | C12Q1/68;C12M1/34;G06F19/00 |
代理公司: | 中国国际贸易促进委员会专利商标事务所 11038 | 代理人: | 李弘 |
地址: | 518083 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 环境 微生物 检测 方法 系统 | ||
1.一种环境微生物检测方法,其特征在于,所述方法包括下述步 骤:
输入从环境样本中提取的DNA数据,采用高通量的测序方法对从 环境样本中提取的DNA进行测序,得到大量的DNA标签序列;
去除所述DNA标签序列中存在的载体污染;
将去除载体污染后得到的DNA标签序列与已知数据库中的已知序 列进行比对,并根据比对结果确定所述DNA标签序列所属的分类;
所述方法还包括下述步骤:
对已知数据库中的已知序列进行预处理,得到能唯一代表一个物种 的DNA序列片段;
计算特有序列中每一位碱基上DNA标签序列的覆盖次数,通过泊 松分布拟合得到特有序列的平均测序深度;
计算特有序列中有多少位碱基被DNA标签序列覆盖,从而得到特 有序列的覆盖度;
计算整条序列中有多少位碱基被DNA标签序列覆盖,从而得到整 条序列的覆盖度;
根据所述特有区域的平均测序深度、特有序列的覆盖度以及整条序 列的覆盖度判断出所述特有序列代表的物种被发现的可信度;
其中,所述对已知数据库中的已知序列进行预处理,得到能唯一代 表一个物种的DNA序列片段的步骤包括:
根据从已知序列的每一位碱基开始,取预设长度的DNA序列作为 模拟标签序列;
将所述模拟标签序列映射到已知序列上,并记录映射到唯一位置的 模拟标签序列;
查找连续的映射到唯一位置的模拟标签序列区域,并将所述区域的 头尾两部分各去掉模拟标签序列长度-1个位点后的连续区域内的序列作 为特有序列,将已知序列中的特有序列连接起来,作为能唯一代表一个 物种DNA序列片段的特有序列。
2.如权利要求1所述的方法,其特征在于,将去除载体污染后得 到的DNA标签序列与已知数据库中的已知序列进行比对,并根据比对 结果确定所述DNA标签序列所属的分类的步骤包括:
采用短串序列的映射方法将所述DNA标签序列与已知数据库中的 已知序列进行比对,将所述DNA标签序列与已知序列之间的最佳匹配 序列所属的分类确定为所述DNA标签序列的所属分类,所述DNA标 签序列与已知序列之间的最佳匹配序列为所述DNA标签序列比对到已 知序列上具有最少碱基错配的序列。
3.如权利要求2所述的方法,其特征在于,当所述DNA标签序列 与已知序列之间的最佳匹配序列有多个时,将该多个最佳匹配序列的最 近的共同所属分类确定为所述DNA标签序列的所述分类。
4.如权利要求1所述的方法,其特征在于,根据所述特有区域的 平均测序深度、特有序列的覆盖度以及整条序列的覆盖度判断出所述特 有序列代表的物种被发现的可信度的步骤具体为:
可信度当p接近1时,可信度最高;当p接近0时,可 信度最低,其中c为特有序列的覆盖度,d为特有序列的平均测序深 度,c’为整条序列的覆盖度,θ为测序的校正因子。
5.如权利要求1所述的方法,其特征在于,所述计算特有序列中 每一位碱基上DNA标签序列的覆盖次数,通过泊松分布拟合得到特有 序列的平均测序深度还包括下述步骤:
根据计算得到的唯一代表每种物种的特有序列的平均测序深度比, 得到每种特有序列代表的物种的相对含量比。
6.如权利要求1-5任意一项所述的方法,其特征在于,所述采用 高通量的测序技术对从环境样本中提取的DNA进行测序过程为对环境 样本中提取的全部DNA进行测序。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳华大基因研究院;深圳华大基因科技有限公司,未经深圳华大基因研究院;深圳华大基因科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910258132.3/1.html,转载请声明来源钻瓜专利网。