[发明专利]一种批量合并eQTL分析结果中存在连锁不平衡SNP的方法在审
申请号: | 202110346625.3 | 申请日: | 2021-03-31 |
公开(公告)号: | CN113066530A | 公开(公告)日: | 2021-07-02 |
发明(设计)人: | 孙程明;张洁夫;胡茂龙;付三雄;郭月;陈松;彭琦;王晓东;陈峰;张维 | 申请(专利权)人: | 江苏省农业科学院 |
主分类号: | G16B20/20 | 分类号: | G16B20/20;G16B50/00 |
代理公司: | 北京德崇智捷知识产权代理有限公司 11467 | 代理人: | 王斌 |
地址: | 210014 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 批量 合并 eqtl 分析 结果 存在 连锁 不平衡 snp 方法 | ||
本发明公开了一种批量合并eQTL分析结果中存在连锁不平衡SNP的方法。本发明所提供的合并eQTL分析结果中存在连锁不平衡SNP的方法基于SNP与靶基因的位置信息将其分为顺式和反式SNP,基于SNP位置信息合并相邻的SNP为一个SNP cluster,基于SNP cluster间的连锁不平衡程度进一步合并结果。本发明的脚本由python3语言写成,速度快,灵活性高,可靠性强,实现了批量化、自动化和流程化计算。本发明将在eQTL分析结果的简化上发挥重要作用。
技术领域
本发明属于生物技术领域,涉及一种批量合并eQTL分析结果中存在连锁不平衡SNP的方法。
背景技术
关联分析(association analysis)是一种以位点间的连锁不平衡(linkagedisequilibrium)为基础,采用统计方法检测遗传多态性与性状之间关联的分析方法。全基因组关联分析(genome-wide association study,GWAS)最初应用于人类疾病相关的研究中,这些研究对人类理解相关疾病的遗传基础和分子机制具有显著的贡献。近年来,随着高密度SNP基因分型芯片和全基因组测序等技术的发展,GWAS广泛应用于作物复杂性状遗传结构的解析。与传统的连锁分析相比,GWAS有多个优势:可以利用自然群体,无需针对特定性状构建作图群体,花费时间少;能同时检测群体同一基因的多个等位基因,有利于优良等位基因的挖掘;当群体连锁不平衡程度低并且标记覆盖度高时,定位精度高,可以达到单基因水平。
eQTL(expression quantitative trait loci)分析是将每个基因的表达量作为表型,将它们与基因组变异位点进行关联分析,从而发掘调控基因表达的遗传变异的分析方法。通过eQTL分析,不但可以获取基因的表达调控位点,还可以构建基因之间的调控网络,对于解析基因的调控机制具有很好的指导作用。目前,eQTL分析已经成功地应用到多个物种中,包括拟南芥、玉米和水稻等。根据eQTL位点与调控的目标基因的位置关系可以将eQTL分成顺式eQTL(cis eQTL)和反式eQTL(trans eQTL)。顺式eQTL与目标基因物理距离较近,表明是该基因本身的差别引起mRNA水平的差别,反式eQTL与目标基因物理距离较近或位于不同的染色体,表明是其他基因的差别控制该基因mRNA水平的差异。
做eQTL分析前首先要对基因的表达谱进行正态化,其次利用正态化的表达谱计算隐性因素,利用基因型数据计算群体结构,最终以群体结构和隐性因素作为协变量,对群体的基因表达谱和基因型数据进行关联分析。由于得到的eQTL结果非常多,常常数以十万、百万计,而相邻的SNP间往往连锁不平衡(linkage disequilibrium,LD)程度高,因此需要合并冗余SNP简化结果。手动合并存在LD的SNP非常耗时耗力,但目前没有软件能提供批量合并的功能,这成为一个亟待解决的问题。
发明内容
本发明提供的是一种批量合并eQTL分析结果中存在连锁不平衡SNP的方法,具体包括如下步骤:
(1)在Windows操作系统下创建工作目录eqtl_analysis及其子文件夹gene_info,将待分析植物基因注释信息文件***.gff3和脚本abstract_gene_info.py放在gene_info文件夹下,运行“python abstract_gene_info.py***.gff3”命令,得到每条染色体各自的基因信息文件,记为G数据集。
所述“***.gff3”为研究物种的基因注释文件,油菜Darmor-bzh参考基因组对应的文件为Brassica_napus.annotation_v5.gff3,油菜中双11参考基因组对应的文件为ZS11.annotation.gff3。
G数据集文件命名方式为染色体名+“_gene_info.txt”,不保留标题行,以油菜为例,染色体A01基因型文件为A01_gene_info.txt。文件包括5列,分别为基因名、染色体、基因起始位置、基因中止位置和正负链信息(图1)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏省农业科学院,未经江苏省农业科学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110346625.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种节能环保的畜牧业生产用养殖废水回收装置
- 下一篇:产品风险预警方法及装置