[发明专利]一种细胞特异性基因组G-四链体的预测方法有效

专利信息
申请号: 202110030502.9 申请日: 2021-01-11
公开(公告)号: CN113160877B 公开(公告)日: 2022-11-25
发明(设计)人: 孙啸;张卓凡;居胜红;杨婧;刘宏德 申请(专利权)人: 东南大学
主分类号: G16B15/30 分类号: G16B15/30;G16B20/20
代理公司: 南京苏高专利商标事务所(普通合伙) 32204 代理人: 丁静静
地址: 211102 江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 细胞 特异性 基因组 四链体 预测 方法
【权利要求书】:

1.一种细胞特异性的G4-DNA预测方法,其特征在于,包括以下步骤:

(1)产生给定物种所有潜在的G4-DNA序列集合:所述潜在的G4-DNA序列包括:规则的G4-DNA序列和奇异的G4-DNA序列;

(2)收集该物种实验检测所获得的体内细胞特异性G4-DNA数据:体内细胞特异性G4-DNA数据由G4 ChIP-seq测序实验提供,收集利用该技术检测不同细胞所获得的原始实验数据,得到细胞特异性G4-DNA集合,本方法滤去长度小于15bp的序列,细胞特异性G4-DNA集合以BED文件形式存储,条目形式为“chrom,chromStart,chromEnd”;

(3)收集细胞特异的染色质开放结构数据和DNA甲基化数据:

所述细胞特异的染色质开放结构数据的分析方法如下:处理对应细胞由染色质可及性检测技术ATAC-seq所获得的测序数据,其数据形式为BedGraph形式,包含每一开放区域的坐标信息与开放程度值,具体表示为“chrom,chromStart,chromEnd,value”,即每一区域为所在染色体、区域起始坐标、区域结束坐标及开放程度值构成的四元组;将所有未在原始文件中出现的基因组区域条目添加到文件中,并将上述添加条目的开放程度值赋值为0,得到以BedGraph形式文件呈现的全基因组染色质开放程度信息;

所述细胞特异的DNA甲基化数据的分析方法如下:处理对应细胞的由DNA甲基化检测技术WGBS-seq所获得的测序数据,其数据形式以BedGraph形式保存,包含每一高甲基化区域的坐标信息与甲基化程度值,具体表示为“chrom,chromStart,chromEnd,value”,即每一区域为所在染色体、区域起始坐标、区域结束坐标及开放程度值构成的四元组;将所有未在原始文件中出现的基因组区域,条目添加到文件中,并将上述添加条目的甲基化程度值赋值为0,得到以BedGraph形式文件呈现的全基因组染色质甲基化程度信息;

(4)建立G4-DNA序列细胞特异性染色质环境特征向量:选定每一G4-DNA条目坐标中点为中心,向上游、下游分别扩展,最终构成定长区域,作为对应每个G4-DNA条目的染色体环境背景考察区域,采用滑窗法计算区域均值的方法压缩数据特征;

所述的滑窗法的计算方法如下:

采用一定长滑窗对区域以一定步长进行扫描,每步均计算窗口内染色体开放程度值/甲基化程度值的平均值,作为该滑窗包含区域的染色体环境背景数值;

若按照缺省值计算,最终将得到一个20维的染色体开放程度数值序列和一个20维的甲基化程度数值序列;

对于每一条G4-DNA序列,都可以得到一组这样的数值特征条目,每一条目均由维度为(1,40)的浮点数特征向量表示:(o1,o2,…o20, m1,m2,…m20),其中oi和mi分别表示滑窗第i步扫描区域内染色质开放程度区域均值及甲基化程度区域均值;

(5)建立细胞特异性的G4-DNA训练样本集合:潜在的G4-DNA如果在特定细胞中形成真正的G4-DNA,那么该G4-DNA就是这个细胞的正样本;相反,如果一个潜在的G4-DNA在特定细胞中不形成G4-DNA,则是一个负样本;

(6)建立细胞特异性的G4-DNA预测分类器模型:所述分类器模型以潜在的G4-DNA的染色质环境特征向量为输入,判断其是否会在特定细胞环境中形成G4-DNA;记 TP, TN, FP,FN 分别为真阳性样本、真阴性样本、假阳性样本及假阴性样本数目,得到三个指标表示如下:

其中,Accuracy、Precision和Recall分别指准确率、查准率和查全率;

在步骤(5)得到的细胞特异性的G4-DNA训练样本集合上进行五折交叉验证:即将细胞特异性的G4-DNA训练样本集合随机分成五等份,每次训练取其中四份为训练集,余下一份为测试集进行五次验证,计算与评估评价指标;交叉验证后,利用完整训练集对Xgboost模型进行训练,并在完整测试集上进行测试,评估评价指标,最终得到细胞特异性的G4-DNA预测分类器模型;

(7)细胞特异性G4-DNA预测:对于一种需要预测的细胞,以集合GS中每一个潜在G4-DNA条目在对应细胞中的染色质环境特征向量,即染色体开放程度数值序列和甲基化程度数值序列,作为预测分类器输入,分类器输出各条目是否为细胞特异性G4-DNA,以表明该潜在序列在对应细胞中是否会真正形成G4-DNA;最后,输出所有被预测为对应细胞实际存在的G4-DNA,输出形式BED文件形式,文件包含所有分类为细胞特异性G4-DNA的条目染色体坐标。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110030502.9/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top