[发明专利]识别4-甲基胞嘧啶位点的预测方法在审

申请号：	202011024490.0	申请日：	2020-09-25
公开（公告）号：	CN112242180A	公开（公告）日：	2021-01-19
发明（设计）人：	郭菲;邹权;何文颖;唐继军	申请（专利权）人：	天津大学
主分类号：	G16B20/00	分类号：	G16B20/00;G06K9/62;G06N20/00
代理公司：	天津市北洋有限责任专利代理事务所 12201	代理人：	刘国威
地址：	300072***	国省代码：	天津;12
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	识别甲基胞嘧啶预测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种识别4-甲基胞嘧啶位点的预测方法，其特征是，步骤如下：

步骤1：基准数据集的建立

从相关文献中收集六个物种秀丽隐杆线虫Caenorhabditis elegans、黑腹果蝇Drosophila melanogaster、拟南芥Arabidopsis thaliana、大肠杆菌Escherichia coli、地下地碱杆菌Geoalkalibacter subterraneus、梭梭杆菌Geobacter pickeringii的4-甲基胞嘧啶数据，构建正负样本集，并参考文献截取序列片段；

步骤2：特征提取

提取正负样本集的序列信息构造多维特征编码；

步骤3：选择机器学习算法

以相同的特征构造预测模型，从朴素贝叶斯Bayes、K最近邻KNN、随机森林RF和支持向量机SVM挑选出最优的分类算法；

步骤4：特征选择

以F-score方法为特征选择方法，采用F-score值对多维特征进行排序，去除冗余信息，从而筛选出最优特征子集；

步骤5：模型构建

以步骤(3)所选的机器学习算法，整合不同的特征子集进行刀切验证，并对预测模型进行评估，选择最优预测模型。

2.如权利要求1所述的识别4-甲基胞嘧啶位点的预测方法，其特征是，所述步骤(1)中的基准数据集数据是选取Chen W,Yang H,Feng P,et al.iDNA4mC:identifying DNA N4-methylcytosine sites based on nucleotide chemical properties[J].Bioinformatics,2017,33(22):3518-3523论文中物种秀丽隐杆线虫Caenorhabditiselegans、黑腹果蝇Drosophila melanogaster、拟南芥Arabidopsis thaliana、大肠杆菌Escherichia coli、地下地碱杆菌Geoalkalibacter subterraneus、梭梭杆菌Geobacterpickeringii的含4-甲基胞嘧啶位点的正样本和不含4-甲基胞嘧啶位点的负样本构造的六个基准数据集。

3.如权利要求1所述的识别4-甲基胞嘧啶位点的预测方法，其特征是，所述步骤(1)中截取序列片段是分别以胞嘧啶C为中心，上游和下游分别截取20bp的序列片段S：

S＝N₁ N₂ N₃…C…N₃₉ N₄₀ N₄₁ (1)

所述步骤(2)中的特征提取主要包括如下步骤：

1)三联体位置特异性编码：DNA序列一共有A，C，G，T四种核苷酸，序列信息中一个很重要的信息是核苷酸的位置信息，这里提取64个三联体在正负样本集中的位置特异性差异信息构造特征编码。任意有序取三个核苷酸为一组即三联体，共有64种组合方式，分别从每个物种的正样本集和负样本集获得三联体位置的频率矩阵F⁺和F^-，作差得位置特异性矩阵Z＝F⁺-F^-，那么任意一个样本可用一个D＝[φ₁,φ₂,...,φ_u,...,φ₃₉]^T的特征向量表示，其中：

位置为：1～39；

64个三联体为：trinucleotide₁＝AAA、trinucleotide₂＝AAC、trinucleotide₃＝AAG、trinucleotide₄＝AAT，…，trinucleotide₆₂＝TTC、trinucleotide₆₃＝TTG、trinucleotide₆₄＝TTT；

z_i,j＝F⁺(trinucleotide_i|j)-F^-(trinucleotide_i|j)表示正负样本集中第i个三联体在第j个位置上的频率差；

2)三联体的平均离子电子能量：对于每一个样本序列S，从左到右以滑动窗口长度3，获取一个三联体，重复这样的操作，直到最后一个核苷酸；按照这种方式可知，每个样本获得关于三联体频率的一个64维向量，接着整合核苷酸的离子电子能量，核苷酸的离子电子能量见如下：

核苷酸A，离子电子能量0.1260；核苷酸C，离子电子能量0.1340；核苷酸G，离子电子能量0.0806；

每个样本中三联体的频率乘以对应三联体的离子电子能量，即三个核苷酸的离子电子能量和，任意一个样本序列，编码为一个64维的特征向量；

所述步骤(3)中的相同的特征构建预测模型，是指以三联体位置特异性特征分别整合朴素贝叶斯Bayes、K最近邻KNN、随机森林RF和支持向量机SVM机器学习算法构建预测模型，并进行刀切检验，准确率Acc为模型性能的评价指标，选择最优机器学习算法。

所述步骤(4)中采用F-score方法对多维特征进行筛选，每一维特征的F-score值为：

其中，和分别表示第i个特征在整个数据集，正样本集和负样本集中的平均值，n⁺和n^-分别表示正样本集的大小和负样本集的大小，表示第k个正样本在第i个特征上的值，表示第k个负样本在第i个特征上的值。

所述步骤(5)中以支持向量机SVM机器学习算法构建预测模型，并进行刀切检验，以灵敏度Sn、特异性Sp、准确率Acc和马氏相关系数MCC为模型性能的评价指标。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于天津大学，未经天津大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011024490.0/1.html，转载请声明来源钻瓜专利网。

上一篇：一种智能制造的电线电缆切割设备
下一篇：基于图神经网络的投融资机构评估方法、系统及设备

同类专利

专利分类

G 物理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]识别4-甲基胞嘧啶位点的预测方法在审

专利文献下载