[发明专利]识别4-甲基胞嘧啶位点的预测方法在审

专利信息
申请号: 202011024490.0 申请日: 2020-09-25
公开(公告)号: CN112242180A 公开(公告)日: 2021-01-19
发明(设计)人: 郭菲;邹权;何文颖;唐继军 申请(专利权)人: 天津大学
主分类号: G16B20/00 分类号: G16B20/00;G06K9/62;G06N20/00
代理公司: 天津市北洋有限责任专利代理事务所 12201 代理人: 刘国威
地址: 300072*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 识别 甲基 胞嘧啶 预测 方法
【权利要求书】:

1.一种识别4-甲基胞嘧啶位点的预测方法,其特征是,步骤如下:

步骤1:基准数据集的建立

从相关文献中收集六个物种秀丽隐杆线虫Caenorhabditis elegans、黑腹果蝇Drosophila melanogaster、拟南芥Arabidopsis thaliana、大肠杆菌Escherichia coli、地下地碱杆菌Geoalkalibacter subterraneus、梭梭杆菌Geobacter pickeringii的4-甲基胞嘧啶数据,构建正负样本集,并参考文献截取序列片段;

步骤2:特征提取

提取正负样本集的序列信息构造多维特征编码;

步骤3:选择机器学习算法

以相同的特征构造预测模型,从朴素贝叶斯Bayes、K最近邻KNN、随机森林RF和支持向量机SVM挑选出最优的分类算法;

步骤4:特征选择

以F-score方法为特征选择方法,采用F-score值对多维特征进行排序,去除冗余信息,从而筛选出最优特征子集;

步骤5:模型构建

以步骤(3)所选的机器学习算法,整合不同的特征子集进行刀切验证,并对预测模型进行评估,选择最优预测模型。

2.如权利要求1所述的识别4-甲基胞嘧啶位点的预测方法,其特征是,所述步骤(1)中的基准数据集数据是选取Chen W,Yang H,Feng P,et al.iDNA4mC:identifying DNA N4-methylcytosine sites based on nucleotide chemical properties[J].Bioinformatics,2017,33(22):3518-3523论文中物种秀丽隐杆线虫Caenorhabditiselegans、黑腹果蝇Drosophila melanogaster、拟南芥Arabidopsis thaliana、大肠杆菌Escherichia coli、地下地碱杆菌Geoalkalibacter subterraneus、梭梭杆菌Geobacterpickeringii的含4-甲基胞嘧啶位点的正样本和不含4-甲基胞嘧啶位点的负样本构造的六个基准数据集。

3.如权利要求1所述的识别4-甲基胞嘧啶位点的预测方法,其特征是,所述步骤(1)中截取序列片段是分别以胞嘧啶C为中心,上游和下游分别截取20bp的序列片段S:

S=N1 N2 N3…C…N39 N40 N41 (1)

所述步骤(2)中的特征提取主要包括如下步骤:

1)三联体位置特异性编码:DNA序列一共有A,C,G,T四种核苷酸,序列信息中一个很重要的信息是核苷酸的位置信息,这里提取64个三联体在正负样本集中的位置特异性差异信息构造特征编码。任意有序取三个核苷酸为一组即三联体,共有64种组合方式,分别从每个物种的正样本集和负样本集获得三联体位置的频率矩阵F+和F-,作差得位置特异性矩阵Z=F+-F-,那么任意一个样本可用一个D=[φ12,...,φu,...,φ39]T的特征向量表示,其中:

位置为:1~39;

64个三联体为:trinucleotide1=AAA、trinucleotide2=AAC、trinucleotide3=AAG、trinucleotide4=AAT,…,trinucleotide62=TTC、trinucleotide63=TTG、trinucleotide64=TTT;

zi,j=F+(trinucleotidei|j)-F-(trinucleotidei|j)表示正负样本集中第i个三联体在第j个位置上的频率差;

2)三联体的平均离子电子能量:对于每一个样本序列S,从左到右以滑动窗口长度3,获取一个三联体,重复这样的操作,直到最后一个核苷酸;按照这种方式可知,每个样本获得关于三联体频率的一个64维向量,接着整合核苷酸的离子电子能量,核苷酸的离子电子能量见如下:

核苷酸A,离子电子能量0.1260;核苷酸C,离子电子能量0.1340;核苷酸G,离子电子能量0.0806;

每个样本中三联体的频率乘以对应三联体的离子电子能量,即三个核苷酸的离子电子能量和,任意一个样本序列,编码为一个64维的特征向量;

所述步骤(3)中的相同的特征构建预测模型,是指以三联体位置特异性特征分别整合朴素贝叶斯Bayes、K最近邻KNN、随机森林RF和支持向量机SVM机器学习算法构建预测模型,并进行刀切检验,准确率Acc为模型性能的评价指标,选择最优机器学习算法。

所述步骤(4)中采用F-score方法对多维特征进行筛选,每一维特征的F-score值为:

其中,和分别表示第i个特征在整个数据集,正样本集和负样本集中的平均值,n+和n-分别表示正样本集的大小和负样本集的大小,表示第k个正样本在第i个特征上的值,表示第k个负样本在第i个特征上的值。

所述步骤(5)中以支持向量机SVM机器学习算法构建预测模型,并进行刀切检验,以灵敏度Sn、特异性Sp、准确率Acc和马氏相关系数MCC为模型性能的评价指标。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011024490.0/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top