[发明专利]一种基于遗传群体组装基因组的方法、装置及存储介质有效
申请号: | 202011551921.9 | 申请日: | 2020-12-24 |
公开(公告)号: | CN112562786B | 公开(公告)日: | 2022-07-26 |
发明(设计)人: | 邓秀新;王楠;宋谢天;周银;叶俊丽 | 申请(专利权)人: | 华中农业大学 |
主分类号: | G16B20/20 | 分类号: | G16B20/20;G06N3/12 |
代理公司: | 北京轻创知识产权代理有限公司 11212 | 代理人: | 蒋杰 |
地址: | 430070 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 遗传 群体 组装 基因组 方法 装置 存储 介质 | ||
本发明提供一种基于遗传群体组装基因组的方法、装置及存储介质,方法包括:导入待质量提升基因组信息以及杂交群体父母本及子代的基因组遗传信息和遗传图谱信息;对待质量提升基因组信息进行类型划分,得到序列定位到染色体的第一组别和序列未定位到染色体的第二组别,建立第一算法模型和第二算法模型,通过模型得到第二组别在对应染色体上的位置信息,根据所有的位置信息得到质量提升的基因组信息。本发明通过建立的第一算法模型得到异常定位基因组对应的染色体信息,并通过建立的第二算法模型来预测得到基因组信息与对应染色体的遗传距离,从而确定基因组信息对应染色体上的位置,实现了将所有的基因组全部比对到染色体上并定位完成。
技术领域
本发明主要涉及基因数据处理技术领域,具体涉及一种基于遗传群体组装基因组的方法、装置及存储介质。
背景技术
基因组组装是指使用不同的测序方法对待测物种进行全基因组测序,并对获得的数据进行拼接从而获得定位到染色体上的全基因组序列的过程。首先是测序产生序列片段reads,并根据reads之间的重叠区域对片段进行拼接,形成较长的连续序列,称为contigs,再将contigs拼接成更长的序列,称为scaffolds,将这些scaffolds定位到染色体上,从而得到高质量的全基因组序列,称为染色体挂载,最后得到可用的基因组版本。
目前基于第三代全基因组测序的技术在reads的基础上进行拼接可获得接近于scaffolds水平的数据,结合高通量染色体构象捕获测序技术,即Hi-C测序可获得更为完整的基因组。但是在组装过程中存在材料较为复杂,数据产出不理想等原因,仍然存在一些contigs并未能有效挂在到染色体上的情况,最后获得的基因组会由三部分构成:第一部分为定位到染色体上的基因组,即挂载到染色体并完成定位的序列,第二部分为未定位到染色体上的基因组,即能够比对到染色体上但是不能定位的序列以及未能比对到染色体上的序列。针对后面两部分序列目前还没有相关的解决办法。
发明内容
本发明所要解决的技术问题是针对现有技术的不足,提供一种基于遗传群体组装基因组的方法、装置及存储介质。
本发明解决上述技术问题的技术方案如下:一种基于遗传群体组装基因组的方法,包括如下步骤:
导入待质量提升基因组信息以及杂交群体父母本及子代的基因组遗传信息和遗传图谱信息;
对所述待质量提升基因组信息中的多个基因组信息进行类型划分,将序列定位到染色体的基因组信息划分到第一组别中,将序列未定位到染色体的基因组信息划分到第二组别中;
基于机器学习算法建立第一算法模型,并对所述基因组遗传信息进行编码处理,通过编码后的基因组遗传信息训练所述第一算法模型,得到训练模型;
将所述第二组别导入所述训练模型中,得到所述第二组别中序列未比对到染色体的各个基因组信息对应的染色体信息;
基于机器学习算法分别建立与各个所述染色体信息对应的第二算法模型,并对所述遗传图谱信息进行编码处理,通过编码后的遗传图谱信息训练各个所述第二算法模型,通过各个经训练的第二算法模型对所述第二组别进行预测,得到基因组与对应染色体的遗传距离;
根据所述遗传距离确定所述第二组别中各个基因组在对应染色体上的位置,根据位置信息得到质量提升基因组信息。
本发明解决上述技术问题的另一技术方案如下:一种基于遗传群体组装基因组的装置,包括:
导入模块,用于导入待质量提升基因组信息以及杂交群体父母本及子代的基因组遗传信息和遗传图谱信息;
类型划分模块,用于对所述待质量提升基因组信息中的多个基因组信息进行类型划分,将序列定位到染色体的基因组信息划分到第一组别中,将序列未定位到染色体的基因组信息划分到第二组别中;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中农业大学,未经华中农业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011551921.9/2.html,转载请声明来源钻瓜专利网。