[发明专利]一种细胞特异性基因组G-四链体的预测方法有效
申请号: | 202110030502.9 | 申请日: | 2021-01-11 |
公开(公告)号: | CN113160877B | 公开(公告)日: | 2022-11-25 |
发明(设计)人: | 孙啸;张卓凡;居胜红;杨婧;刘宏德 | 申请(专利权)人: | 东南大学 |
主分类号: | G16B15/30 | 分类号: | G16B15/30;G16B20/20 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 丁静静 |
地址: | 211102 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 细胞 特异性 基因组 四链体 预测 方法 | ||
1.一种细胞特异性的G4-DNA预测方法,其特征在于,包括以下步骤:
(1)产生给定物种所有潜在的G4-DNA序列集合:所述潜在的G4-DNA序列包括:规则的G4-DNA序列和奇异的G4-DNA序列;
(2)收集该物种实验检测所获得的体内细胞特异性G4-DNA数据:体内细胞特异性G4-DNA数据由G4 ChIP-seq测序实验提供,收集利用该技术检测不同细胞所获得的原始实验数据,得到细胞特异性G4-DNA集合,本方法滤去长度小于15bp的序列,细胞特异性G4-DNA集合以BED文件形式存储,条目形式为“chrom,chromStart,chromEnd”;
(3)收集细胞特异的染色质开放结构数据和DNA甲基化数据:
所述细胞特异的染色质开放结构数据的分析方法如下:处理对应细胞由染色质可及性检测技术ATAC-seq所获得的测序数据,其数据形式为BedGraph形式,包含每一开放区域的坐标信息与开放程度值,具体表示为“chrom,chromStart,chromEnd,value”,即每一区域为所在染色体、区域起始坐标、区域结束坐标及开放程度值构成的四元组;将所有未在原始文件中出现的基因组区域条目添加到文件中,并将上述添加条目的开放程度值赋值为0,得到以BedGraph形式文件呈现的全基因组染色质开放程度信息;
所述细胞特异的DNA甲基化数据的分析方法如下:处理对应细胞的由DNA甲基化检测技术WGBS-seq所获得的测序数据,其数据形式以BedGraph形式保存,包含每一高甲基化区域的坐标信息与甲基化程度值,具体表示为“chrom,chromStart,chromEnd,value”,即每一区域为所在染色体、区域起始坐标、区域结束坐标及开放程度值构成的四元组;将所有未在原始文件中出现的基因组区域,条目添加到文件中,并将上述添加条目的甲基化程度值赋值为0,得到以BedGraph形式文件呈现的全基因组染色质甲基化程度信息;
(4)建立G4-DNA序列细胞特异性染色质环境特征向量:选定每一G4-DNA条目坐标中点为中心,向上游、下游分别扩展,最终构成定长区域,作为对应每个G4-DNA条目的染色体环境背景考察区域,采用滑窗法计算区域均值的方法压缩数据特征;
所述的滑窗法的计算方法如下:
采用一定长滑窗对区域以一定步长进行扫描,每步均计算窗口内染色体开放程度值/甲基化程度值的平均值,作为该滑窗包含区域的染色体环境背景数值;
若按照缺省值计算,最终将得到一个20维的染色体开放程度数值序列和一个20维的甲基化程度数值序列;
对于每一条G4-DNA序列,都可以得到一组这样的数值特征条目,每一条目均由维度为(1,40)的浮点数特征向量表示:(o1,o2,…o20, m1,m2,…m20),其中oi和mi分别表示滑窗第i步扫描区域内染色质开放程度区域均值及甲基化程度区域均值;
(5)建立细胞特异性的G4-DNA训练样本集合:潜在的G4-DNA如果在特定细胞中形成真正的G4-DNA,那么该G4-DNA就是这个细胞的正样本;相反,如果一个潜在的G4-DNA在特定细胞中不形成G4-DNA,则是一个负样本;
(6)建立细胞特异性的G4-DNA预测分类器模型:所述分类器模型以潜在的G4-DNA的染色质环境特征向量为输入,判断其是否会在特定细胞环境中形成G4-DNA;记 TP, TN, FP,FN 分别为真阳性样本、真阴性样本、假阳性样本及假阴性样本数目,得到三个指标表示如下:
其中,Accuracy、Precision和Recall分别指准确率、查准率和查全率;
在步骤(5)得到的细胞特异性的G4-DNA训练样本集合上进行五折交叉验证:即将细胞特异性的G4-DNA训练样本集合随机分成五等份,每次训练取其中四份为训练集,余下一份为测试集进行五次验证,计算与评估评价指标;交叉验证后,利用完整训练集对Xgboost模型进行训练,并在完整测试集上进行测试,评估评价指标,最终得到细胞特异性的G4-DNA预测分类器模型;
(7)细胞特异性G4-DNA预测:对于一种需要预测的细胞,以集合
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110030502.9/1.html,转载请声明来源钻瓜专利网。