[发明专利]一种微生物基因数据库的构建方法及系统有效
申请号: | 202111443169.0 | 申请日: | 2021-11-30 |
公开(公告)号: | CN114121167B | 公开(公告)日: | 2022-07-01 |
发明(设计)人: | 徐晓强;夏炎;王晓凯;谢海亮 | 申请(专利权)人: | 深圳零一生命科技有限责任公司;夏炎 |
主分类号: | G16B50/30 | 分类号: | G16B50/30;G16B50/10 |
代理公司: | 杭州信与义专利代理有限公司 33450 | 代理人: | 万景旺 |
地址: | 518000 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 微生物 基因 数据库 构建 方法 系统 | ||
1.一种微生物基因数据库的构建方法,其特征在于,包括以下步骤:
S1,获取目标微生物组合中每种目标微生物的基因组数据,其中,所述目标微生物组合包括N种目标微生物,N≥1;
S2,对步骤S1获取的基因组数据进行基因预测,获得基因注释文件;
S3,利用步骤S2获得的所述基因注释文件获得每种目标微生物的代表基因:针对所述目标微生物组合中目标微生物n,其中,1≤n≤N,所述目标微生物n的基因组数目M,根据M的大小获得所述目标微生物n的代表基因:
(1)若M=1,则所述目标微生物n的基因组的所有基因为代表基因,
(2)若M≥2,则所有基因组的共有基因为代表基因;
S4,将所述代表基因中的每个基因分别比对到核酸序列数据库,获得比对结果;
S5,对于每个基因的对比结果,获取该基因的注释物种,若所述注释物种与来源物种相同,则保留该基因;
S6,利用所有被保留的基因构成所述微生物基因数据库。
2.根据权利要求1所述的一种微生物基因数据库的构建方法,其特征在于,在步骤S4之前或步骤S5之后进一步包括对基因进行去冗余的步骤。
3.根据权利要求1所述的一种微生物基因数据库的构建方法,其特征在于,在第(2)种情况,若M≥3,则判断是否有基因组偏离总体,若有,则剔除偏离总体的基因组,再判断剩余基因组中是否有基因组偏离总体,若有,则再剔除偏离总体的基因组,直至剩余基因组中没有基因组偏离总体或者剩余基因组数目M3,则提取剩余基因组的共有基因,作为所有基因组修正的共有基因,并作为所述目标微生物n的代表基因。
4.根据权利要求1所述的一种微生物基因数据库的构建方法,其特征在于,若M≥3,进一步根据以下步骤重新确定共有基因:
S31,根据所述目标微生物n的M个基因组中各基因的来源基因组情况组成m种基因组合,其中,
S32,统计每种基因组合中的基因数目,并按从大到小顺序将所述基因数目进行排序并获得位于第S位的基因数目Q,
S33,判断来源于M个基因组的基因组合的基因数目是否小于Q:
①若来源于M个基因组的基因组合的基因数目不小于Q,则直接提取M个基因组的共有基因;②若来源于M个基因组的基因组合的基因数目小于Q,则:
S331,选取基因数目最多的基因组合的来源基因组作为亚群,提取亚群的共有基因;
S332,剔除S331中亚群中的基因组,若剩余的基因组数目3,则提取剩余基因组的共有基因;若剩余的基因组数目≥3,则重复S31-S33步骤再次提取共有基因;
S34,将步骤S33得到的所有共有基因合并到一起,作为所有基因组修正的共有基因,并进一步作为所述目标微生物n的代表基因,
其中2≤S≤5。
5.根据权利要求1-4任一所述的一种微生物基因数据库的构建方法,其特征在于,在第(2)种情况下,所述代表基因进一步包括除共有基因外剩余基因中基因组出现率按从大到小排序前Y个的基因,其中100≤Y≤300。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳零一生命科技有限责任公司;夏炎,未经深圳零一生命科技有限责任公司;夏炎许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111443169.0/1.html,转载请声明来源钻瓜专利网。