[发明专利]一种原核蛋白质乙酰化位点的预测方法在审

申请号：	201710654001.1	申请日：	2017-08-02
公开（公告）号：	CN107463802A	公开（公告）日：	2017-12-12
发明（设计）人：	施绍萍;陈国东;曹曼	申请（专利权）人：	南昌大学
主分类号：	G06F19/28	分类号：	G06F19/28;G06F19/18;G06K9/62
代理公司：	南昌青远专利代理事务所(普通合伙)36123	代理人：	刘爱芳
地址：	330000 江西省***	国省代码：	江西;36
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种核蛋白乙酰化预测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及特别用于特定应用的数字计算或数据处理设备或数据处理方法，尤其涉及一种原核蛋白质乙酰化位点的预测方法。

背景技术

乙酰化是保障蛋白质活性所必须的且具有高度调控作用的蛋白质翻译后修饰，它能发生在核心组蛋白、将近40种转录因子和30多种其他蛋白质靶标中。从细菌到人类，蛋白质乙酰化不仅对细胞核功能发挥起关键作用，而且对各种胞质代谢也具有重要调控作用，包括细胞骨架动力学、能量代谢、内吞作用、自体吞噬，甚至包含跨膜信号的传导。对于乙酰化位点的识别将是理解乙酰化分子机制的基础。通过质谱、放射性化学方法和染色体免疫沉淀等实验技术可以对乙酰化位点进行鉴定，但这些实验方法往往费时、费力且费用昂贵。还有十多种预测蛋白质乙酰化位点的方法，诸如Xu通过改进位置权重算法并且运用组合式的支持向量机分类器训练处于“自然”分布状态的特征数据，提出的名为EnsemblePail 的乙酰化预测方法；Basu通过对某些组蛋白上的赖氨酸残基两侧的氨基酸残基进行分层聚类，得到一个双层比对得分矩阵，并最终通过产生的分层树对54条核心组蛋白上的赖氨酸乙酰化进行预测分析。这些预测方法对赖氨酸乙酰化进行预测，都未针对原核生物蛋白乙酰化位点进行预测；而且大多数的预测方法只单纯地运用某一种特征算法，提取的乙酰化位点特征信息不全；在所有的乙酰化预测方法中，仅有两种方法基于两步特征选择的思考对特征进行优化。

发明内容

本发明的目的在于针对现有计算识别方法的不足，提供一种原核蛋白质乙酰化位点的预测方法，还提供一种原核蛋白质乙酰化位点的预测方法的应用。

本发明解决上述技术问题所提供的技术方案为：

一种原核蛋白质乙酰化位点的预测方法，包括如下步骤：

1）收集数据

从蛋白质数据库和相关文献中收集实验验证的原核乙酰化蛋白和位点数据；

2）数据处理

采用去同源性软件和滑动窗口策略构建古生菌、副溶血弧菌、大肠杆菌、谷氨酸棒状杆菌、结核分枝杆菌、枯草芽孢杆菌、嗜热地芽孢杆菌、黎火疫病原细菌和鼠伤寒沙门菌共九种原核生物蛋白乙酰化正样本数据集和负样本数据集；

3）特征编码

提取正样本数据集的蛋白、负样本数据集的蛋白的一级结构信息、进化信息和物理化学性质，对正样本蛋白、负样本蛋白进行多维特征编码；

4）特征训练

采用弹性网络（Elastic Net）方法挑选重要的维数组成新的特征，确定最优特征向量，减少维数，提高预测准确度；

5）构建预测模型

将最优特征向量通过支持向量机（Support Vector Machine，缩略词SVM）进行交叉验证训练，结合评价体系指标对预测结果进行评价，评估模型的预测性能和泛化能力，优化模型参数，建立古生菌、副溶血弧菌、大肠杆菌、谷氨酸棒状杆菌、结核分枝杆菌、枯草芽孢杆菌、嗜热地芽孢杆菌、黎火疫病原细菌和鼠伤寒沙门菌共九种原核生物蛋白乙酰化最优预测模型。

所述步骤1）中的蛋白质数据库是UniProt数据库、CPLM数据库和NCBI数据库中的至少一种。

所述步骤2）的正样本是经实验验证标记的乙酰化位点的数据标记样本。

所述步骤2）的负样本是从与正样本相同的蛋白中随机挑选出与正样本数量相同但未标记的赖氨酸（K）序列的数据标记样本。

所述步骤2）数据处理包括如下子步骤：

2 ▪1）根据结构生物学证实乙酰转移酶对底物的识别不会超过20个氨基酸，最初选择中心赖氨酸两边各20个氨基酸残基；

2 ▪2）采用CD-HIT程序去除从几个不同的蛋白质数据库中收集的同源性即具有相同或相似性大于30%的高同源蛋白序列，所述CD-HIT是一种聚类生物序列以减少序列冗余和改进其他序列分析性能的广泛使用的程序；

2 ▪3）分别对最初的氨基酸片段从上游或下游长度为11到20截取片段；

2 ▪4）基于K-近邻（k-Nearest Neighbor，缩略词KNN）分类算法的打分特征对初始序列进行训练，选择最优的序列窗口，序列片段长度结果为：古生菌片段长度为13，副溶血性弧菌片段长度为17，其它的细菌类片段长度为21。

所述步骤3）特征编码包括如下子步骤：

3 ▪1）样本序列的一级结构信息编码：一级结构信息包括氨基酸成分、二进制编码，氨基酸位置权重和K-空间氨基酸对；

氨基酸成分是根据20种氨基酸在序列片段中出现的频率进行编码；

二进制编码是将序列中每个氨基酸都转化为一个20维的向量；