[发明专利]一种基于遗传群体组装基因组的方法、装置及存储介质有效
申请号: | 202011551921.9 | 申请日: | 2020-12-24 |
公开(公告)号: | CN112562786B | 公开(公告)日: | 2022-07-26 |
发明(设计)人: | 邓秀新;王楠;宋谢天;周银;叶俊丽 | 申请(专利权)人: | 华中农业大学 |
主分类号: | G16B20/20 | 分类号: | G16B20/20;G06N3/12 |
代理公司: | 北京轻创知识产权代理有限公司 11212 | 代理人: | 蒋杰 |
地址: | 430070 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 遗传 群体 组装 基因组 方法 装置 存储 介质 | ||
1.一种基于遗传群体组装基因组的方法,其特征在于,包括如下步骤:
导入待质量提升基因组信息以及杂交群体父母本及子代的基因组遗传信息和遗传图谱信息;
对所述待质量提升基因组信息中的多个基因组信息进行类型划分,将序列定位到染色体的基因组信息划分到第一组别中,将序列未定位到染色体的基因组信息划分到第二组别中,具体为:将基因组类型为纯合基因组和杂合基因组划分到第一组别中,将基因组类型为未知基因组划分到第二组别中;
基于机器学习算法建立第一算法模型,并对所述基因组遗传信息进行编码处理,通过编码后的基因组遗传信息训练所述第一算法模型,得到训练模型;其中,所述对基因组遗传信息进行编码处理的过程包括:
对所述基因组遗传信息中的多个基因组类型进行标记,若基因组类型为纯合基因组,则对基因组类型编码为0,若基因组类型为杂合基因组,则对基因组类型编码为1,若基因组类型为未知基因组,则对基因组类型编码为0.5;
所述基于机器学习算法建立第一算法模型的过程包括:
配置所述第一算法模型的采样参数,根据所述采样参数建立第一算法模型,其中,所述第一算法模型为支持向量机的非线性分类模型,所述第一算法模型用于以预处理后的训练集为输入并以染色体编号为学习目标,进行输出训练;其中,所述采样参数为随机划分所述编码后的基因组遗传信息,划分比例为4:1,采用不放回随机采样方式,且采样比例为0.1;
将所述第二组别导入所述训练模型中,得到所述第二组别中序列未比对到染色体的各个基因组信息对应的染色体信息;
基于机器学习算法分别建立与各个所述染色体信息对应的第二算法模型,并对所述遗传图谱信息进行编码处理,通过编码后的遗传图谱信息训练各个所述第二算法模型,通过各个经训练的第二算法模型对所述第二组别进行预测,得到基因组与对应染色体的遗传距离;其中,对所述遗传图谱信息进行编码处理:
对所述遗传图谱信息的多个图谱类型进行标记,若图谱类型为纯合基因型,则对图谱类型编码为0,若图谱类型为杂合基因型,则对图谱类型编码为1,若图谱类型为未知基因型,则对图谱类型编码为0.5;
根据所述遗传距离确定所述第二组别中各个基因组在对应染色体上的位置,根据位置信息得到质量提升基因组信息。
2.根据权利要求1所述的基于遗传群体组装基因组的方法,其特征在于,所述基于机器学习算法分别建立与各个所述染色体信息对应的第二算法模型,其过程包括:
配置各个第二算法模型的采样参数,根据所述采样参数建立各个第二算法模型,其中,所述第二算法模型为支持向量机的线性回归模型,所述第二算法模型用于以所述编码后的遗传图谱信息为输入并以遗传距离为学习目标,进行输出训练;其中,所述采样参数为随机划分所述编码后的遗传图谱信息,划分比例为4:1,采用全采样方式。
3.根据权利要求2所述的基于遗传群体组装基因组的方法,其特征在于,所述通过各个经训练的第二算法模型对所述第二组别进行预测,得到基因组与对应染色体的遗传距离,其过程包括:
根据各个染色体信息确定第二组别中序列未定位到染色体的各个基因组信息与经训练的第二算法模型的对应关系,并根据所述对应关系将序列未定位到染色体的各个基因组信息分别输入至对应经训练的第二算法模型中,通过经训练的第二算法模型预测基因组与对应染色体的遗传距离。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中农业大学,未经华中农业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011551921.9/1.html,转载请声明来源钻瓜专利网。