[发明专利]一种批量合并eQTL分析结果中存在连锁不平衡SNP的方法在审

专利信息
申请号: 202110346625.3 申请日: 2021-03-31
公开(公告)号: CN113066530A 公开(公告)日: 2021-07-02
发明(设计)人: 孙程明;张洁夫;胡茂龙;付三雄;郭月;陈松;彭琦;王晓东;陈峰;张维 申请(专利权)人: 江苏省农业科学院
主分类号: G16B20/20 分类号: G16B20/20;G16B50/00
代理公司: 北京德崇智捷知识产权代理有限公司 11467 代理人: 王斌
地址: 210014 江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 批量 合并 eqtl 分析 结果 存在 连锁 不平衡 snp 方法
【权利要求书】:

1.一种批量合并eQTL分析结果中存在连锁不平衡SNP的方法,其特征在于,步骤如下:

(1)在Windows操作系统下创建工作目录eqtl_analysis及其子文件夹gene_info,将待分析植物的基因注释信息文件***.gff3和脚本abstract_gene_info.py放在gene_info文件夹下,运行“python abstract_gene_info.py***.gff3”命令,得到每条染色体各自的基因信息文件,记为G数据集;

G数据集文件命名方式为染色体名+“_gene_info.txt”,不保留标题行,文件包括5列,分别为基因名、染色体、基因起始位置、基因中止位置和正负链信息;

(2)将待分析植物的eQTL结果文件记为A数据集,格式为eQTL分析常用软件MatrixeQTL的结果文件格式;脚本separate_cis_trans.py参考G数据集提供的基因物理位置,分析SNP与基因的染色体和物理距离,将所有SNP划分为两类,顺式SNP和反式SNP;A数据集和脚本eqtl_cis_trans.py均放在工作目录eqtl_analysis下,运行命令“python separate_cis_trans.py XXX1.txt cis_dis”,得到“XXX1_cis.txt”和“XXX1_trans.txt”两个文件;

“XXX1.txt”代表所述A数据集的文件名,格式与eQTL分析常用软件MatrixeQTL的结果文件格式相同,包含6列“SNP”,“gene”,“beta”,“t-stat”,“p-value”和“FDR”,脚本利用其中“SNP”,“gene”和“p-value”三列信息;文件按“gene”和“SNP”两列信息进行排序;SNP的命名方式用染色体名+物理位置,染色体为3位或者10位,物理位置为8位数,不足的位数用0补全;

“cis_dis”为划分SNP为顺式SNP和反式SNP的距离阈值,默认设定为24,000bp;

所述“XXX1_cis.txt”为包含所有顺式SNP的文件名,记为B1数据集;所述“XXX1_trans.txt”为包含所有反式SNP的文件名,记为B2数据集;

(3)脚本combine_near_snp.py合并相邻的显著SNP,得到SNP cluster,并用其中最显著、物理位置小的SNP作为代表,将脚本combine_near_snp.py放在工作目录eqtl_analysis下,针对B1、B2数据集分别运行命令“python combine_near_snp.py XXX1_cis.txt part_dis”和“python combine_near_snp.py XXX1_trans.txt part_dis”,得到“XXX1_cis_median.txt”和“XXX1_trans_median.txt”两个文件;

“part_dis”为合并相邻SNP的距离阈值,默认设定为10,000bp;所述“XXX1_cis_median.txt”为合并相邻的顺式SNP后得到的结果文件,记为C1数据集;“XXX1_trans_median.txt”为合并相邻的反式SNP后得到的结果文件,记为C2数据集;

(4)为计算SNP cluster间的LD系数r2,手动创建各染色体的关联群体基因型文件,记为M数据集,放在新创建的eqtl_analysis子目录snp_info下;脚本combine_ld_snp.py参考M数据集,计算SNP cluster间的r2,若r20.1,则保留更显著、物理位置更小的SNP cluster;将脚本combine_ld_snp.py放在工作目录eqtl_analysis下,针对C1、C2数据集分别运行命令“python combine_ld_snp.py XXX1_cis_median.txt”和“python combine_ld_snp.pyXXX1_trans_median.txt”,得到“XXX1_cis_final.txt”和“XXX1_trans_final.txt”两个文件;

M数据集各染色体基因型文件命名方式为染色体名+“_snp_info.txt”,不保留标题行,文件格式为SNP+基因型信息,SNP包含两个等位基因,分别用0和2表示,杂合、缺失用NA表示;

所述“XXX1_cis_final.txt”为合并所有相邻、存在LD的顺式SNP的最终结果文件,记为D1数据集;所述“XXX1_trans_final.txt”为合并所有相邻、存在LD的反式SNP的最终结果文件,记为D2数据集。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏省农业科学院,未经江苏省农业科学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110346625.3/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top