[发明专利]基于深度学习的蛋白质赖氨酸丙二酰化位点预测方法在审

专利信息
申请号: 201911365158.8 申请日: 2019-12-26
公开(公告)号: CN111081311A 公开(公告)日: 2020-04-28
发明(设计)人: 于彬;崔晓文;王明辉;王磊 申请(专利权)人: 青岛科技大学
主分类号: G16B15/00 分类号: G16B15/00;G16B20/00
代理公司: 昆明普发诺拉知识产权代理事务所(特殊普通合伙) 53209 代理人: 葛玉军
地址: 266100 山*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 深度 学习 蛋白质 赖氨酸 丙二酰化位点 预测 方法
【权利要求书】:

1.一种基于深度学习的蛋白质赖氨酸丙二酰化位点预测方法,其特征在于包括如下步骤:

1)收集数据:从蛋白质数据库和相关文献中收集实验验证的赖氨酸丙二酰化位点数据;

2)特征编码:提取正负样本蛋白质的序列信息,物理化学性质和进化信息,对正负样本进行多种特征提取;

3)特征融合:将提取的多种蛋白质特征信息融合,得到特征空间;

4)构建预测模型:将融合特征输入到深度神经网络中,进行预测丙二酰化位点和非丙二酰化位点;利用交叉验证进行训练,结合评价指标对预测结果进行评价,评估模型的预测性能和鲁棒性;构建E.coli、H.sapiens和M.musculus数据集上蛋白质丙二酰化位点的预测模型DeepMal;

5)丙二酰化位点预测:获取待分析蛋白质的序列作为独立测试数据集,输入步骤4)中的预测模型DeepMal中,得到丙二酰化位点预测结果并输出。

2.根据权利要求1所述的基于深度学习的蛋白质赖氨酸丙二酰化位点预测方法,其特征在于:所述步骤1)中的赖氨酸丙二酰化位点数据来自数据集E.coli、H.sapiens和M.musculus,每条蛋白质序列窗口大小为25。

3.根据权利要求1所述的基于深度学习的蛋白质赖氨酸丙二酰化位点预测方法,其特征在于:所述步骤1)中正样本是经实验验证标记的丙二酰化位点的数据标记样本;负样本是从与正样本相同的蛋白质中随机挑选出与正样本数量相同但未标记的丙二酰化位点的数据标记样本。

4.根据权利要求1所述的基于深度学习的蛋白质赖氨酸丙二酰化位点预测方法,其特征在于:所述步骤2)特征提取采用Enhanced amino acid composition、Enhanced groupedamino acid composition、Dipeptide deviation from expected mean、K nearestneighbors和BLOSUM62矩阵进行特征提取,其中

2-1)Enhanced amino acid composition:从每条蛋白质序列的N-末端连续滑动到C-末端,计算固定长度子序列的氨基酸出现频率,通常用于编码长度相等的蛋白质序列;EAAC特征提取计算公式为:

t∈{A,C,D,...,Y},win∈{windowl,window 2,...,win dow L}

其中,N(t,win)是滑动窗口win中氨基酸类型t的个数,N(win)是滑动窗口win的大小,固定长度的序列窗口大小默认值为5,得到420维特征向量;

2-2)Enhanced grouped amino acid composition:将20种氨基酸划分为五类,包括脂族基团(g1:GAVLMI),芳族基团(g2:FYW),正电荷基团(g3:KRH),负电荷基团(g4:DE)和不带电荷基团(g5:STCPNQ),其计算公式如下:

g∈{g1,g2,g3,g4,g5},win∈{window1,window2,…,windowL}

其中,N(g,win)是滑动窗口win中g组氨基酸的个数,N(win)是滑动窗口win的大小,固定长度的序列窗口大小默认值为5,得到105维特征向量;

2-3)Dipeptide deviation from expected mean:通过计算二肽组成(DC),理论平均值(TM)和理论方差(TV)三个参数来构建400维的DDE特征向量,其计算公式如下:

r,s∈{A,C,D,…,Y}

其中,Nrs是氨基酸对rs的个数,N是蛋白质序列的长度;

其中,Cr是编码第一个氨基酸的密码子数,Cs是编码第二个氨基酸的密码子数,CN是可能的密码子总数;

2-4)K nearest neighbors:利用局部序列聚类信息预测丙二酰化位点,聚类信息即通过将一个蛋白质序列片段比对正负数据合并的比对集序列,通过KNN算法提取蛋白质序列聚类特征,详细描述如下:

2-4-1)根据局部序列相似性分别在正数据集和负数据集中找到其KNN特征:对于两个本地序列s1和s2,距离Dist(s1,s2)定义为:

其中p表示蛋白质序列片段中中心位点的侧翼残基数,i表示序列片段中氨基酸的所在位置;Sim是氨基酸相似性打分矩阵,用BLOSUM62矩阵来代替

其中a和b是两个氨基酸,M是BLOSUM62替换矩阵,max{M}/min{M}为BLOSUM62替换矩阵中的最大/最小数;

2-4-2)提取相应的KNN特征:通过结合正负样本形成一个比对数据集,计算从蛋白质序列到比对数据集集的平均距离,对计算的距离进行排序,然后选择KNN参数,计算KNN分数,即KNN中正样本的百分比,要获得多个特征,选择不同的k值,得到KNN特征,k取2,4,8,16,32,64,得到6维特征向量;

2-5)BLOSUM62:建立在氨基酸序列的比对上,两个肽序列之间的同一性不超过62%,基于BLOSUM62中20个氨基酸的取代分数,窗口长度为25个氨基酸的片段序列编码为500维的特征向量。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于青岛科技大学,未经青岛科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911365158.8/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top