[发明专利]一种原核蛋白质乙酰化位点的预测方法在审

专利信息
申请号: 201710654001.1 申请日: 2017-08-02
公开(公告)号: CN107463802A 公开(公告)日: 2017-12-12
发明(设计)人: 施绍萍;陈国东;曹曼 申请(专利权)人: 南昌大学
主分类号: G06F19/28 分类号: G06F19/28;G06F19/18;G06K9/62
代理公司: 南昌青远专利代理事务所(普通合伙)36123 代理人: 刘爱芳
地址: 330000 江西省*** 国省代码: 江西;36
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 核蛋白 乙酰化 预测 方法
【说明书】:

技术领域

发明涉及特别用于特定应用的数字计算或数据处理设备或数据处理方法,尤其涉及一种原核蛋白质乙酰化位点的预测方法。

背景技术

乙酰化是保障蛋白质活性所必须的且具有高度调控作用的蛋白质翻译后修饰,它能发生在核心组蛋白、将近40种转录因子和30多种其他蛋白质靶标中。从细菌到人类,蛋白质乙酰化不仅对细胞核功能发挥起关键作用,而且对各种胞质代谢也具有重要调控作用,包括细胞骨架动力学、能量代谢、内吞作用、自体吞噬,甚至包含跨膜信号的传导。对于乙酰化位点的识别将是理解乙酰化分子机制的基础。通过质谱、放射性化学方法和染色体免疫沉淀等实验技术可以对乙酰化位点进行鉴定,但这些实验方法往往费时、费力且费用昂贵。还有十多种预测蛋白质乙酰化位点的方法,诸如Xu通过改进位置权重算法并且运用组合式的支持向量机分类器训练处于“自然”分布状态的特征数据,提出的名为EnsemblePail 的乙酰化预测方法;Basu通过对某些组蛋白上的赖氨酸残基两侧的氨基酸残基进行分层聚类,得到一个双层比对得分矩阵,并最终通过产生的分层树对54条核心组蛋白上的赖氨酸乙酰化进行预测分析。这些预测方法对赖氨酸乙酰化进行预测,都未针对原核生物蛋白乙酰化位点进行预测;而且大多数的预测方法只单纯地运用某一种特征算法,提取的乙酰化位点特征信息不全;在所有的乙酰化预测方法中,仅有两种方法基于两步特征选择的思考对特征进行优化。

发明内容

本发明的目的在于针对现有计算识别方法的不足,提供一种原核蛋白质乙酰化位点的预测方法,还提供一种原核蛋白质乙酰化位点的预测方法的应用。

本发明解决上述技术问题所提供的技术方案为:

一种原核蛋白质乙酰化位点的预测方法,包括如下步骤:

1)收集数据

从蛋白质数据库和相关文献中收集实验验证的原核乙酰化蛋白和位点数据;

2)数据处理

采用去同源性软件和滑动窗口策略构建古生菌、副溶血弧菌、大肠杆菌、谷氨酸棒状杆菌、结核分枝杆菌、枯草芽孢杆菌、嗜热地芽孢杆菌、黎火疫病原细菌和鼠伤寒沙门菌共九种原核生物蛋白乙酰化正样本数据集和负样本数据集;

3)特征编码

提取正样本数据集的蛋白、负样本数据集的蛋白的一级结构信息、进化信息和物理化学性质,对正样本蛋白、负样本蛋白进行多维特征编码;

4)特征训练

采用弹性网络(Elastic Net)方法挑选重要的维数组成新的特征,确定最优特征向量,减少维数,提高预测准确度;

5)构建预测模型

将最优特征向量通过支持向量机(Support Vector Machine,缩略词SVM)进行交叉验证训练,结合评价体系指标对预测结果进行评价,评估模型的预测性能和泛化能力,优化模型参数,建立古生菌、副溶血弧菌、大肠杆菌、谷氨酸棒状杆菌、结核分枝杆菌、枯草芽孢杆菌、嗜热地芽孢杆菌、黎火疫病原细菌和鼠伤寒沙门菌共九种原核生物蛋白乙酰化最优预测模型。

所述步骤1)中的蛋白质数据库是UniProt数据库、CPLM数据库和NCBI数据库中的至少一种。

所述步骤2)的正样本是经实验验证标记的乙酰化位点的数据标记样本。

所述步骤2)的负样本是从与正样本相同的蛋白中随机挑选出与正样本数量相同但未标记的赖氨酸(K)序列的数据标记样本。

所述步骤2)数据处理包括如下子步骤:

2 ▪1)根据结构生物学证实乙酰转移酶对底物的识别不会超过20个氨基酸,最初选择中心赖氨酸两边各20个氨基酸残基;

2 ▪2)采用CD-HIT程序去除从几个不同的蛋白质数据库中收集的同源性即具有相同或相似性大于30%的高同源蛋白序列,所述CD-HIT是一种聚类生物序列以减少序列冗余和改进其他序列分析性能的广泛使用的程序;

2 ▪3)分别对最初的氨基酸片段从上游或下游长度为11到20截取片段;

2 ▪4)基于K-近邻(k-Nearest Neighbor,缩略词KNN)分类算法的打分特征对初始序列进行训练,选择最优的序列窗口,序列片段长度结果为:古生菌片段长度为13,副溶血性弧菌片段长度为17,其它的细菌类片段长度为21。

所述步骤3)特征编码包括如下子步骤:

3 ▪1)样本序列的一级结构信息编码:一级结构信息包括氨基酸成分、二进制编码,氨基酸位置权重和K-空间氨基酸对;

氨基酸成分是根据20种氨基酸在序列片段中出现的频率进行编码;

二进制编码是将序列中每个氨基酸都转化为一个20维的向量;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南昌大学,未经南昌大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710654001.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top