[发明专利]一种批量合并eQTL分析结果中存在连锁不平衡SNP的方法在审
申请号: | 202110346625.3 | 申请日: | 2021-03-31 |
公开(公告)号: | CN113066530A | 公开(公告)日: | 2021-07-02 |
发明(设计)人: | 孙程明;张洁夫;胡茂龙;付三雄;郭月;陈松;彭琦;王晓东;陈峰;张维 | 申请(专利权)人: | 江苏省农业科学院 |
主分类号: | G16B20/20 | 分类号: | G16B20/20;G16B50/00 |
代理公司: | 北京德崇智捷知识产权代理有限公司 11467 | 代理人: | 王斌 |
地址: | 210014 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 批量 合并 eqtl 分析 结果 存在 连锁 不平衡 snp 方法 | ||
1.一种批量合并eQTL分析结果中存在连锁不平衡SNP的方法,其特征在于,步骤如下:
(1)在Windows操作系统下创建工作目录eqtl_analysis及其子文件夹gene_info,将待分析植物的基因注释信息文件***.gff3和脚本abstract_gene_info.py放在gene_info文件夹下,运行“python abstract_gene_info.py***.gff3”命令,得到每条染色体各自的基因信息文件,记为G数据集;
G数据集文件命名方式为染色体名+“_gene_info.txt”,不保留标题行,文件包括5列,分别为基因名、染色体、基因起始位置、基因中止位置和正负链信息;
(2)将待分析植物的eQTL结果文件记为A数据集,格式为eQTL分析常用软件MatrixeQTL的结果文件格式;脚本separate_cis_trans.py参考G数据集提供的基因物理位置,分析SNP与基因的染色体和物理距离,将所有SNP划分为两类,顺式SNP和反式SNP;A数据集和脚本eqtl_cis_trans.py均放在工作目录eqtl_analysis下,运行命令“python separate_cis_trans.py XXX1.txt cis_dis”,得到“XXX1_cis.txt”和“XXX1_trans.txt”两个文件;
“XXX1.txt”代表所述A数据集的文件名,格式与eQTL分析常用软件MatrixeQTL的结果文件格式相同,包含6列“SNP”,“gene”,“beta”,“t-stat”,“p-value”和“FDR”,脚本利用其中“SNP”,“gene”和“p-value”三列信息;文件按“gene”和“SNP”两列信息进行排序;SNP的命名方式用染色体名+物理位置,染色体为3位或者10位,物理位置为8位数,不足的位数用0补全;
“cis_dis”为划分SNP为顺式SNP和反式SNP的距离阈值,默认设定为24,000bp;
所述“XXX1_cis.txt”为包含所有顺式SNP的文件名,记为B1数据集;所述“XXX1_trans.txt”为包含所有反式SNP的文件名,记为B2数据集;
(3)脚本combine_near_snp.py合并相邻的显著SNP,得到SNP cluster,并用其中最显著、物理位置小的SNP作为代表,将脚本combine_near_snp.py放在工作目录eqtl_analysis下,针对B1、B2数据集分别运行命令“python combine_near_snp.py XXX1_cis.txt part_dis”和“python combine_near_snp.py XXX1_trans.txt part_dis”,得到“XXX1_cis_median.txt”和“XXX1_trans_median.txt”两个文件;
“part_dis”为合并相邻SNP的距离阈值,默认设定为10,000bp;所述“XXX1_cis_median.txt”为合并相邻的顺式SNP后得到的结果文件,记为C1数据集;“XXX1_trans_median.txt”为合并相邻的反式SNP后得到的结果文件,记为C2数据集;
(4)为计算SNP cluster间的LD系数r2,手动创建各染色体的关联群体基因型文件,记为M数据集,放在新创建的eqtl_analysis子目录snp_info下;脚本combine_ld_snp.py参考M数据集,计算SNP cluster间的r2,若r20.1,则保留更显著、物理位置更小的SNP cluster;将脚本combine_ld_snp.py放在工作目录eqtl_analysis下,针对C1、C2数据集分别运行命令“python combine_ld_snp.py XXX1_cis_median.txt”和“python combine_ld_snp.pyXXX1_trans_median.txt”,得到“XXX1_cis_final.txt”和“XXX1_trans_final.txt”两个文件;
M数据集各染色体基因型文件命名方式为染色体名+“_snp_info.txt”,不保留标题行,文件格式为SNP+基因型信息,SNP包含两个等位基因,分别用0和2表示,杂合、缺失用NA表示;
所述“XXX1_cis_final.txt”为合并所有相邻、存在LD的顺式SNP的最终结果文件,记为D1数据集;所述“XXX1_trans_final.txt”为合并所有相邻、存在LD的反式SNP的最终结果文件,记为D2数据集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏省农业科学院,未经江苏省农业科学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110346625.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种节能环保的畜牧业生产用养殖废水回收装置
- 下一篇:产品风险预警方法及装置