[发明专利]一种基于多个基因组比较和二代测序数据的全基因组关联分析方法有效
申请号: | 202110849440.4 | 申请日: | 2021-07-27 |
公开(公告)号: | CN113628685B | 公开(公告)日: | 2022-03-15 |
发明(设计)人: | 王健;赵均良;杨武;李方平;刘斌;董景芳 | 申请(专利权)人: | 广东省农业科学院水稻研究所 |
主分类号: | G16B30/10 | 分类号: | G16B30/10;G16B20/20;G16B50/10 |
代理公司: | 湖南楚墨知识产权代理有限公司 43268 | 代理人: | 杜承功 |
地址: | 510640 *** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 基因组 比较 二代 序数 关联 分析 方法 | ||
1.一种基于多个基因组比较和二代测序数据的全基因组关联分析方法,其特征在于,所述分析方法步骤如下:
步骤一:使用比对软件将参考基因组和从头组装基因组文件进行比对,获取基因组间的共线性特征,根据共线性特征挖掘结构变异位点,将从头组装基因组中的插入片段插入至参考基因组相应位置中,生成更新后的参考基因组文件;
步骤二:根据插入片段大小及插入到参考基因组的位置,更新参考基因组中的注释基因位置或结构,根据插入片段位置与从头组装基因组中基因注释信息,获得基因结构完全位于插入片段的注释基因并更新到参考基因组中;
步骤三:如果有多个从头组装基因组,依次迭代更新参考基因组;
步骤四:利用比对软件将样品的二代测序数据比对到更新后的参考基因组上,利用序列提取软件提取比对文件的短序列覆盖度,生成覆盖度文件,通过设定覆盖度阈值的方式,判断样品的结构变异情况;
步骤五,收集所有样品全部结构变异的分界点位置信息至一个集合中,利用分界点位置将更新后的参考基因组分割成一个个片段,命名为bin,重新捕获所有bin在样品中的存在与缺失情况,构建出每个样品基于bin的基因型,将所有样品的bin基因型进行合并,经过最小等位基因频率(MAF)筛选,形成群体基因组结构变异基因型;
步骤六:基于群体基因组结构变异基因型和表型进行全基因组关联分析,根据关联位点和更新后的参考基因组注释文件进行功能基因的候选。
2.根据权利要求1所述的一种基于多个基因组比较和二代测序数据的全基因组关联分析方法,其特征在于:所述步骤一将检测到的来自从头组装基因组的片段插入到参考基因组相应位置中,指大于50bp的片段。
3.根据权利要求1所述的一种基于多个基因组比较和二代测序数据的全基因组关联分析方法,其特征在于:所述结构变异指序列片段存在和缺失。
4.根据权利要求1所述的一种基于多个基因组比较和二代测序数据的全基因组关联分析方法,其特征在于:所述步骤五将所有样品的结构变异的分界点位置信息收集到集合中,集合的中的元素将参考基因组分割成bin,bin的划分有利于所有样品标记数量和位置的统一,从而实现群体基因型构建。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东省农业科学院水稻研究所,未经广东省农业科学院水稻研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110849440.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种生物转盘用水循环装置
- 下一篇:一种枸橼酸托法替布口服溶液及其制备方法