[发明专利]识别4-甲基胞嘧啶位点的预测方法在审
申请号: | 202011024490.0 | 申请日: | 2020-09-25 |
公开(公告)号: | CN112242180A | 公开(公告)日: | 2021-01-19 |
发明(设计)人: | 郭菲;邹权;何文颖;唐继军 | 申请(专利权)人: | 天津大学 |
主分类号: | G16B20/00 | 分类号: | G16B20/00;G06K9/62;G06N20/00 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 刘国威 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 识别 甲基 胞嘧啶 预测 方法 | ||
1.一种识别4-甲基胞嘧啶位点的预测方法,其特征是,步骤如下:
步骤1:基准数据集的建立
从相关文献中收集六个物种秀丽隐杆线虫Caenorhabditis elegans、黑腹果蝇Drosophila melanogaster、拟南芥Arabidopsis thaliana、大肠杆菌Escherichia coli、地下地碱杆菌Geoalkalibacter subterraneus、梭梭杆菌Geobacter pickeringii的4-甲基胞嘧啶数据,构建正负样本集,并参考文献截取序列片段;
步骤2:特征提取
提取正负样本集的序列信息构造多维特征编码;
步骤3:选择机器学习算法
以相同的特征构造预测模型,从朴素贝叶斯Bayes、K最近邻KNN、随机森林RF和支持向量机SVM挑选出最优的分类算法;
步骤4:特征选择
以F-score方法为特征选择方法,采用F-score值对多维特征进行排序,去除冗余信息,从而筛选出最优特征子集;
步骤5:模型构建
以步骤(3)所选的机器学习算法,整合不同的特征子集进行刀切验证,并对预测模型进行评估,选择最优预测模型。
2.如权利要求1所述的识别4-甲基胞嘧啶位点的预测方法,其特征是,所述步骤(1)中的基准数据集数据是选取Chen W,Yang H,Feng P,et al.iDNA4mC:identifying DNA N4-methylcytosine sites based on nucleotide chemical properties[J].Bioinformatics,2017,33(22):3518-3523论文中物种秀丽隐杆线虫Caenorhabditiselegans、黑腹果蝇Drosophila melanogaster、拟南芥Arabidopsis thaliana、大肠杆菌Escherichia coli、地下地碱杆菌Geoalkalibacter subterraneus、梭梭杆菌Geobacterpickeringii的含4-甲基胞嘧啶位点的正样本和不含4-甲基胞嘧啶位点的负样本构造的六个基准数据集。
3.如权利要求1所述的识别4-甲基胞嘧啶位点的预测方法,其特征是,所述步骤(1)中截取序列片段是分别以胞嘧啶C为中心,上游和下游分别截取20bp的序列片段S:
S=N1 N2 N3…C…N39 N40 N41 (1)
所述步骤(2)中的特征提取主要包括如下步骤:
1)三联体位置特异性编码:DNA序列一共有A,C,G,T四种核苷酸,序列信息中一个很重要的信息是核苷酸的位置信息,这里提取64个三联体在正负样本集中的位置特异性差异信息构造特征编码。任意有序取三个核苷酸为一组即三联体,共有64种组合方式,分别从每个物种的正样本集和负样本集获得三联体位置的频率矩阵F+和F-,作差得位置特异性矩阵Z=F+-F-,那么任意一个样本可用一个D=[φ1,φ2,...,φu,...,φ39]T的特征向量表示,其中:
位置为:1~39;
64个三联体为:trinucleotide1=AAA、trinucleotide2=AAC、trinucleotide3=AAG、trinucleotide4=AAT,…,trinucleotide62=TTC、trinucleotide63=TTG、trinucleotide64=TTT;
zi,j=F+(trinucleotidei|j)-F-(trinucleotidei|j)表示正负样本集中第i个三联体在第j个位置上的频率差;
2)三联体的平均离子电子能量:对于每一个样本序列S,从左到右以滑动窗口长度3,获取一个三联体,重复这样的操作,直到最后一个核苷酸;按照这种方式可知,每个样本获得关于三联体频率的一个64维向量,接着整合核苷酸的离子电子能量,核苷酸的离子电子能量见如下:
核苷酸A,离子电子能量0.1260;核苷酸C,离子电子能量0.1340;核苷酸G,离子电子能量0.0806;
每个样本中三联体的频率乘以对应三联体的离子电子能量,即三个核苷酸的离子电子能量和,任意一个样本序列,编码为一个64维的特征向量;
所述步骤(3)中的相同的特征构建预测模型,是指以三联体位置特异性特征分别整合朴素贝叶斯Bayes、K最近邻KNN、随机森林RF和支持向量机SVM机器学习算法构建预测模型,并进行刀切检验,准确率Acc为模型性能的评价指标,选择最优机器学习算法。
所述步骤(4)中采用F-score方法对多维特征进行筛选,每一维特征的F-score值为:
其中,和分别表示第i个特征在整个数据集,正样本集和负样本集中的平均值,n+和n-分别表示正样本集的大小和负样本集的大小,表示第k个正样本在第i个特征上的值,表示第k个负样本在第i个特征上的值。
所述步骤(5)中以支持向量机SVM机器学习算法构建预测模型,并进行刀切检验,以灵敏度Sn、特异性Sp、准确率Acc和马氏相关系数MCC为模型性能的评价指标。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011024490.0/1.html,转载请声明来源钻瓜专利网。