[发明专利]基因聚类方法和基于该方法的宏基因组组装方法和装置有效
申请号: | 201611090611.5 | 申请日: | 2016-12-01 |
公开(公告)号: | CN108133122B | 公开(公告)日: | 2020-09-15 |
发明(设计)人: | 覃友文;高强;梁文颖;张义;杨林峰 | 申请(专利权)人: | 深圳华大基因股份有限公司 |
主分类号: | G16B30/20 | 分类号: | G16B30/20 |
代理公司: | 深圳鼎合诚知识产权代理有限公司 44281 | 代理人: | 孙银行;彭家恩 |
地址: | 518083 广东省深圳市盐田*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基因 方法 基于 宏基 组装 装置 | ||
1.一种基因聚类方法,其特征在于,所述方法用于将多个基因序列或小基因簇聚类到多个大基因簇中,其中所述基因簇是指一组有相同来源的基因集合,所述小基因簇是指基因数量小于预设值的基因集合,所述大基因簇是指基因数量大于所述预设值的基因集合;所述方法包括:
根据每个所述基因序列或小基因簇在多个样品中的丰度谱,以及每个所述大基因簇在所述多个样品中的丰度谱,通过多元线性回归,计算每个所述大基因簇与每个所述基因序列或小基因簇的相关性;
找到与每个所述大基因簇的相关性大于设定值的基因序列或小基因簇,并将所找到的基因序列或小基因簇合并至相关联的大基因簇中,组合成新的大基因簇;
所述多元线性回归依据如下方程式进行:
其中,Eij表示基因序列或小基因簇j在样品i中的相对丰度,aik表示大基因簇k在样品i中的相对丰度,ekj表示基因序列或小基因簇j与大基因簇k的相关性。
2.根据权利要求1所述的基因聚类方法,其特征在于,所述方法还包括使用系数收缩技术计算出所述相关性ekj。
3.根据权利要求2所述的基因聚类方法,其特征在于,所述小基因簇是相似丰度谱基因簇,所述大基因簇是宏基因组物种基因组,所述系数收缩技术是LASSO收缩方法,所述相关性的设定值为0.1。
4.一种基因聚类装置,其特征在于,所述装置用于将多个基因序列或小基因簇聚类到多个大基因簇中,其中所述基因簇是指一组有相同来源的基因集合,所述小基因簇是指基因数量小于预设值的基因集合,所述大基因簇是指基因数量大于所述预设值的基因集合;所述装置包括:
相关性计算单元,用于根据每个所述基因序列或小基因簇在多个样品中的丰度谱,以及每个所述大基因簇在所述多个样品中的丰度谱,通过多元线性回归,计算每个所述大基因簇与每个所述基因序列或小基因簇的相关性;
基因簇合并单元,用于找到与每个所述大基因簇的相关性大于设定值的基因序列或小基因簇,并将所找到的基因序列或小基因簇合并至相关联的大基因簇中,组合成新的大基因簇;
所述多元线性回归依据如下方程式进行:
其中,Eij表示基因序列或小基因簇j在样品i中的相对丰度,aik表示大基因簇k在样品i中的相对丰度,ekj表示基因序列或小基因簇j与大基因簇k的相关性。
5.一种宏基因组组装方法,其特征在于,所述方法用于将来自宏基因组的多个基因序列或小基因簇聚类到多个大基因簇中,其中所述基因簇是指一组有相同来源的基因集合,所述小基因簇是指基因数量小于预设值的基因集合,所述大基因簇是指基因数量大于所述预设值的基因集合;所述方法包括:
根据每个所述基因序列或小基因簇在多个样品中的丰度谱,以及每个所述大基因簇在所述多个样品中的丰度谱,通过多元线性回归,计算每个所述大基因簇与每个所述基因序列或小基因簇的相关性;
找到与每个所述大基因簇的相关性大于设定值的基因序列或小基因簇,并将所找到的基因序列或小基因簇合并至相关联的大基因簇中,组合成新的大基因簇;
将测序读长序列比对至所述新的大基因簇,获取单个基因簇特有的测序读长序列,进行单独组装,获得单个基因组草图;
所述多元线性回归依据如下方程式进行:
其中,Eij表示基因序列或小基因簇j在样品i中的相对丰度,aik表示大基因簇k在样品i中的相对丰度,ekj表示基因序列或小基因簇j与大基因簇k的相关性。
6.根据权利要求5所述的宏基因组组装方法,其特征在于,所述方法还包括使用系数收缩技术计算出所述相关性ekj。
7.根据权利要求6所述的宏基因组组装方法,其特征在于,所述小基因簇是相似丰度谱基因簇,所述大基因簇是宏基因组物种基因组,所述系数收缩技术是LASSO收缩方法,所述相关性的设定值为0.1。
8.一种宏基因组组装装置,其特征在于,所述装置用于将来自宏基因组的多个基因序列或小基因簇聚类到多个大基因簇中,其中所述基因簇是指一组有相同来源的基因集合,所述小基因簇是指基因数量小于预设值的基因集合,所述大基因簇是指基因数量大于所述预设值的基因集合;所述装置包括:
相关性计算单元,用于根据每个所述基因序列或小基因簇在多个样品中的丰度谱,以及每个所述大基因簇在所述多个样品中的丰度谱,通过多元线性回归,计算每个所述大基因簇与每个所述基因序列或小基因簇的相关性;
基因簇合并单元,用于找到与每个所述大基因簇的相关性大于设定值的基因序列或小基因簇,并将所找到的基因序列或小基因簇合并至相关联的大基因簇中,组合成新的大基因簇;
基因组组装单元,用于将测序读长序列比对至所述新的大基因簇,获取单个基因簇特有的测序读长序列,进行单独组装,获得单个基因组草图;
所述多元线性回归依据如下方程式进行:
其中,Eij表示基因序列或小基因簇j在样品i中的相对丰度,aik表示大基因簇k在样品i中的相对丰度,ekj表示基因序列或小基因簇j与大基因簇k的相关性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳华大基因股份有限公司,未经深圳华大基因股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611090611.5/1.html,转载请声明来源钻瓜专利网。